欢迎您访问95历史网

首页华夏历史世界历史探索发现历史文化百家哲学社会百态野史秘闻最新专题

当前位置：首页 > 社会百态 >phantomjs怎么抓取页面的动态数据

phantomjs怎么抓取页面的动态数据

phantomjs因为是无头浏览器可以跑js，所以同样可以跑dom节点，用来进行网页抓取是再好不过了。

比如我们要批量抓取网页 “历史上的今天” 的内容。网站

对dom结构的观察发现，我们只需要取到 .list li a的title值即可。因此我们利用高级选择器构建dom片段

var d= ''

var c = document.querySelectorAll('.list li a')

var l = c.length;

for(var i =0;i<l;i++){

d=d+c[i].title+'\n'

}

之后只需要让js代码在phantomjs里跑起来即可~

var page = require('webpage').create();

page.open('/', function (status) { //打开页面

if (status !== 'success') {

console.log('FAIL to load the address');

} else {

console.log(page.evaluate(function () {

var d= ''

var c = document.querySelectorAll('.list li a')

var l = c.length;

for(var i =0;i<l;i++){

d=d+c[i].title+'\n'

}

return d

}))

}

phantom.exit();

});

最终我们另存为catch.js，在dos里面执行一下，输出内容到txt文件(也可以用phantomjs的文件api来写)

本文标签： is 我们文件 for

版权声明:本文内容来源网络，本站仅提供信息存储空间服务，不承担相关法律责任，如发现涉嫌抄袭侵权的内容，请联系我们删除。

上一篇：中国白酒历史是怎么样的？

下一篇：霍英东与白天鹅

图文推荐

热点文章

推荐文章

猜你喜欢