JavaScript抓取-Coursera_Javascript_Web Scraping_Phantomjs

JavaScript抓取-Coursera

javascript web-scraping phantomjs

JavaScript抓取-Coursera,javascript,web-scraping,phantomjs,Javascript,Web Scraping,Phantomjs,我试图用PhantomJS废弃coursera网页。但是，当我尝试这样做时，它无法显示实际内容，而只是显示加载。当我们尝试访问时，您可以看到一个显示加载的中间显示，正在显示。然而，既然phantomJS是一款无头浏览器，它不应该像浏览器一样检索源代码吗？我尝试设置超时，但没有效果。有什么建议吗编辑：请查找简单报废的代码片段： var webPage = require('webpage'); var system = require('system'); var page = webPage

我试图用PhantomJS废弃coursera网页。但是，当我尝试这样做时，它无法显示实际内容，而只是显示加载。当我们尝试访问时，您可以看到一个显示加载的中间显示，正在显示。然而，既然phantomJS是一款无头浏览器，它不应该像浏览器一样检索源代码吗？我尝试设置超时，但没有效果。有什么建议吗

编辑：请查找简单报废的代码片段：

var webPage = require('webpage');
var system = require('system');
var page = webPage.create();
page.settings.resourceTimeout = 5000; // 5 seconds
var url = system.args[1];

page.open(url, function (status) {
        if(status === 'success') {
        var content = page.content;
        console.log(content);
        phantom.exit();
        }
        else
        {console.log("Error!")
        phantom.exit()
        }
    });

编辑：

我试了很多，但还是没有成功。我只是想知道OP有没有运气再试试这个

var page = require('webpage').create();
page.settings.resourceTimeout = 10000; // 5 seconds
page.settings.userAgent   = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36';
var system = require('system');
var fs = require('fs');

if(system.args.length !== 3) {
  console.log('Usage: phantomjs text-scraper.js <url> <output file>');
  phantom.exit();
}

var url = system.args[1];
var outfile = system.args[2];


page.open(url);
//page.open(url, function(status) {
  //var output = url + '\n';
  //console.log(output);
  //if(status === 'success') {
page.onLoadFinished = function(msg) {
      var text = page.evaluate(function () {
        return document.title + '\n' + document.body.innerText;
      });
    console.log(text);
      //output += text;
      //fs.write(outfile, output);
      //phantom.exit()
  //} else {
  //  console.log("Error!")
    phantom.exit();
  //}
  //}
};

使用润滑脂或捣固机进行刮除；他们运行所有最新的东西，你可以看到你在做什么，它只需要一个浏览器而不是一个节点框。我明白了，我会试试的。但这些只是为了分析？你说的只是为了分析是什么意思？在浏览器中看到的任何内容都可以使用monkeys收集、组织、过滤和保存。也就是说；可以将猴子从任何url上的html生成的字符串中的物理文件放在本地计算机上。您能展示您目前拥有的代码吗？谢谢。请注册到、、活动。也许有错误。另外，不要忘记在问题中添加代码。