Java 它能够通过Crawler4j检索网站内容吗?

Java 它能够通过Crawler4j检索网站内容吗?,java,parsing,web-crawler,jsoup,crawler4j,Java,Parsing,Web Crawler,Jsoup,Crawler4j,我对Java非常陌生 现在,我想从第1页到第10页使用Google新闻搜索关键词:toy检索新闻文章内容 即从第1页到第10页检索100条新闻内容。假设每页有10篇新闻文章 在我读了这篇文章之后 我决定尽可能使用Crawler4j 给出基本URI主页 从每个页面获取所有URI并检索这些URI的内容 也是 为检索到的每个URI递归移动 仅检索此网站中URI的内容 可以是 外部URI引用另一个网站,我们不需要这些 在我的例子中,我可以给出从p1到p10的google搜索页面。如果我将intnumb

我对Java非常陌生

现在,我想从第1页到第10页使用Google新闻搜索关键词:toy检索新闻文章内容

即从第1页到第10页检索100条新闻内容。假设每页有10篇新闻文章

在我读了这篇文章之后

我决定尽可能使用Crawler4j

给出基本URI主页

从每个页面获取所有URI并检索这些URI的内容 也是

为检索到的每个URI递归移动

仅检索此网站中URI的内容 可以是 外部URI引用另一个网站,我们不需要这些

在我的例子中,我可以给出从p1到p10的google搜索页面。如果我将intnumberOfCrawlers设置为1,它将返回100条新闻

然而,当我尝试Crawler4j的快速启动时

它只返回从原始链接找到的外部链接。 例如:

    URL: http://www.ics.uci.edu/~lopes/
Text length: 2619
Html length: 11656
Number of outgoing links: 38
URL: http://www.ics.uci.edu/~welling/
Text length: 4503
Html length: 23713
Number of outgoing links: 24
URL: http://www.ics.uci.edu/~welling/teaching/courses.html
Text length: 2222
Html length: 15138
Number of outgoing links: 33
URL: http://www.ics.uci.edu/
Text length: 3661
Html length: 51628
Number of outgoing links: 86
因此,我想知道crawler4j能否执行我提出的功能。或者我应该一起使用crawler4j+jsoup吗?

crawler4j尊重爬虫的政治性,例如。在您的情况下,此文件如下所示

检查此文件会发现,不允许对给定的种子点进行爬网:

 Disallow: /search

因此,除非修改以忽略robots.txt,否则您将无法对给定站点进行爬网。但是,这被认为是不礼貌的,也不符合爬虫道德。

你的帖子上有很多问题,我会尽力回答:

它能够通过Crawler4j检索网站内容吗

是的,正如github源代码上的示例所示 然而,对于更高级的DOM解析/操作,我鼓励您添加Jsoup。这是您的文档 因此,我想知道crawler4j能否执行我提出的功能。或者我应该一起使用crawler4j+jsp吗

使用Crawler4j来完成它最大的优点,爬行 使用Jsoup通过方便的API提取和操作数据 它只返回从原始链接找到的外部链接。像这样

在BasicCrawler中,您需要在此处添加允许URL return href.startsWithhttp://www.ics.uci.edu/; 修改以包含更多内容 在BasicCrawlController中,您需要将页面种子添加到config.setMaxDepthOfCrawling2;