JavaScript抓取-Coursera
我试图用PhantomJS废弃coursera网页。但是,当我尝试这样做时,它无法显示实际内容,而只是显示加载。当我们尝试访问时,您可以看到一个显示加载的中间显示,正在显示。然而,既然phantomJS是一款无头浏览器,它不应该像浏览器一样检索源代码吗?我尝试设置超时,但没有效果。有什么建议吗 编辑: 请查找简单报废的代码片段:JavaScript抓取-Coursera,javascript,web-scraping,phantomjs,Javascript,Web Scraping,Phantomjs,我试图用PhantomJS废弃coursera网页。但是,当我尝试这样做时,它无法显示实际内容,而只是显示加载。当我们尝试访问时,您可以看到一个显示加载的中间显示,正在显示。然而,既然phantomJS是一款无头浏览器,它不应该像浏览器一样检索源代码吗?我尝试设置超时,但没有效果。有什么建议吗 编辑: 请查找简单报废的代码片段: var webPage = require('webpage'); var system = require('system'); var page = webPage
var webPage = require('webpage');
var system = require('system');
var page = webPage.create();
page.settings.resourceTimeout = 5000; // 5 seconds
var url = system.args[1];
page.open(url, function (status) {
if(status === 'success') {
var content = page.content;
console.log(content);
phantom.exit();
}
else
{console.log("Error!")
phantom.exit()
}
});
编辑:
我试了很多,但还是没有成功。我只是想知道OP有没有运气再试试这个
var page = require('webpage').create();
page.settings.resourceTimeout = 10000; // 5 seconds
page.settings.userAgent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36';
var system = require('system');
var fs = require('fs');
if(system.args.length !== 3) {
console.log('Usage: phantomjs text-scraper.js <url> <output file>');
phantom.exit();
}
var url = system.args[1];
var outfile = system.args[2];
page.open(url);
//page.open(url, function(status) {
//var output = url + '\n';
//console.log(output);
//if(status === 'success') {
page.onLoadFinished = function(msg) {
var text = page.evaluate(function () {
return document.title + '\n' + document.body.innerText;
});
console.log(text);
//output += text;
//fs.write(outfile, output);
//phantom.exit()
//} else {
// console.log("Error!")
phantom.exit();
//}
//}
};
使用润滑脂或捣固机进行刮除;他们运行所有最新的东西,你可以看到你在做什么,它只需要一个浏览器而不是一个节点框。我明白了,我会试试的。但这些只是为了分析?你说的只是为了分析是什么意思?在浏览器中看到的任何内容都可以使用monkeys收集、组织、过滤和保存。也就是说;可以将猴子从任何url上的html生成的字符串中的物理文件放在本地计算机上。您能展示您目前拥有的代码吗?谢谢。请注册到、、活动。也许有错误。另外,不要忘记在问题中添加代码。