Java Crawler4j-许多URL被丢弃/未处理(输出中缺少)

Java Crawler4j-许多URL被丢弃/未处理(输出中缺少),java,web-crawler,crawler4j,Java,Web Crawler,Crawler4j,我正在运行crawler4j来查找一百万个URL的状态(http响应)代码。 我没有设置任何筛选器来筛选要处理的URL。 我得到了90%URL的正确响应,但输出中缺少10%。 它们甚至不出现在Webcrawler扩展类的handlePageStatusCode()方法中。 可能是由于各种问题,未对其进行处理。 是否有可能找到丢失的URL进行重新处理? 我们能否改进爬行过程,使其不丢失任何URL?是的,我们做到了 请使用Crawler4j的最新版本,因为我添加了许多方法来捕获不同类型的异常 现在,

我正在运行crawler4j来查找一百万个URL的状态(http响应)代码。 我没有设置任何筛选器来筛选要处理的URL。
我得到了90%URL的正确响应,但输出中缺少10%。
它们甚至不出现在Webcrawler扩展类的handlePageStatusCode()方法中。 可能是由于各种问题,未对其进行处理。
是否有可能找到丢失的URL进行重新处理? 我们能否改进爬行过程,使其不丢失任何URL?

是的,我们做到了

请使用Crawler4j的最新版本,因为我添加了许多方法来捕获不同类型的异常

现在,在扩展WebCrawler时,只需覆盖许多可以覆盖的方法:

例如,如下所示: onPageBiggerThanMaxSize onUnexpectedStatusCode onContentFetchError onUnhandledException 等等

请注意,这些方法都被调用了,页面由于某种原因没有被处理,所以再次添加它作为种子不会改变问题


无论如何,crawler4j的最新版本处理许多页面的能力要好得多,因此只要升级到v4.1(当前)或更高版本,您就可以抓取更多页面。

如果您觉得我的答案合适,您能接受吗?