Java 它能够通过Crawler4j检索网站内容吗？_Java_Parsing_Web Crawler_Jsoup_Crawler4j

Java 它能够通过Crawler4j检索网站内容吗？

java parsing web-crawler

Java 它能够通过Crawler4j检索网站内容吗？,java,parsing,web-crawler,jsoup,crawler4j,Java,Parsing,Web Crawler,Jsoup,Crawler4j,我对Java非常陌生现在，我想从第1页到第10页使用Google新闻搜索关键词：toy检索新闻文章内容即从第1页到第10页检索100条新闻内容。假设每页有10篇新闻文章在我读了这篇文章之后我决定尽可能使用Crawler4j 给出基本URI主页从每个页面获取所有URI并检索这些URI的内容也是为检索到的每个URI递归移动仅检索此网站中URI的内容可以是外部URI引用另一个网站，我们不需要这些在我的例子中，我可以给出从p1到p10的google搜索页面。如果我将intnumb

我对Java非常陌生

现在，我想从第1页到第10页使用Google新闻搜索关键词：toy检索新闻文章内容

即从第1页到第10页检索100条新闻内容。假设每页有10篇新闻文章

在我读了这篇文章之后

我决定尽可能使用Crawler4j

给出基本URI主页

从每个页面获取所有URI并检索这些URI的内容也是

为检索到的每个URI递归移动

仅检索此网站中URI的内容可以是外部URI引用另一个网站，我们不需要这些

在我的例子中，我可以给出从p1到p10的google搜索页面。如果我将intnumberOfCrawlers设置为1，它将返回100条新闻

然而，当我尝试Crawler4j的快速启动时

它只返回从原始链接找到的外部链接。例如：

    URL: http://www.ics.uci.edu/~lopes/
Text length: 2619
Html length: 11656
Number of outgoing links: 38
URL: http://www.ics.uci.edu/~welling/
Text length: 4503
Html length: 23713
Number of outgoing links: 24
URL: http://www.ics.uci.edu/~welling/teaching/courses.html
Text length: 2222
Html length: 15138
Number of outgoing links: 33
URL: http://www.ics.uci.edu/
Text length: 3661
Html length: 51628
Number of outgoing links: 86

因此，我想知道crawler4j能否执行我提出的功能。或者我应该一起使用crawler4j+jsoup吗？

crawler4j尊重爬虫的政治性，例如。在您的情况下，此文件如下所示

检查此文件会发现，不允许对给定的种子点进行爬网：

 Disallow: /search

因此，除非修改以忽略robots.txt，否则您将无法对给定站点进行爬网。但是，这被认为是不礼貌的，也不符合爬虫道德。

你的帖子上有很多问题，我会尽力回答：

它能够通过Crawler4j检索网站内容吗

是的，正如github源代码上的示例所示然而，对于更高级的DOM解析/操作，我鼓励您添加Jsoup。这是您的文档因此，我想知道crawler4j能否执行我提出的功能。或者我应该一起使用crawler4j+jsp吗

使用Crawler4j来完成它最大的优点，爬行使用Jsoup通过方便的API提取和操作数据它只返回从原始链接找到的外部链接。像这样

在BasicCrawler中，您需要在此处添加允许URL return href.startsWithhttp://www.ics.uci.edu/; 修改以包含更多内容在BasicCrawlController中，您需要将页面种子添加到config.setMaxDepthOfCrawling2；