Java Crawler4j-许多URL被丢弃/未处理（输出中缺少）_Java_Web Crawler_Crawler4j

Java Crawler4j-许多URL被丢弃/未处理（输出中缺少）

java web-crawler

Java Crawler4j-许多URL被丢弃/未处理（输出中缺少）,java,web-crawler,crawler4j,Java,Web Crawler,Crawler4j,我正在运行crawler4j来查找一百万个URL的状态（http响应）代码。我没有设置任何筛选器来筛选要处理的URL。我得到了90%URL的正确响应，但输出中缺少10%。它们甚至不出现在Webcrawler扩展类的handlePageStatusCode（）方法中。可能是由于各种问题，未对其进行处理。是否有可能找到丢失的URL进行重新处理？我们能否改进爬行过程，使其不丢失任何URL？是的，我们做到了请使用Crawler4j的最新版本，因为我添加了许多方法来捕获不同类型的异常现在，

我正在运行crawler4j来查找一百万个URL的状态（http响应）代码。我没有设置任何筛选器来筛选要处理的URL。
我得到了90%URL的正确响应，但输出中缺少10%。
它们甚至不出现在Webcrawler扩展类的handlePageStatusCode（）方法中。可能是由于各种问题，未对其进行处理。
是否有可能找到丢失的URL进行重新处理？我们能否改进爬行过程，使其不丢失任何URL？

是的，我们做到了

请使用Crawler4j的最新版本，因为我添加了许多方法来捕获不同类型的异常

现在，在扩展WebCrawler时，只需覆盖许多可以覆盖的方法：

例如，如下所示： onPageBiggerThanMaxSize onUnexpectedStatusCode onContentFetchError onUnhandledException 等等

请注意，这些方法都被调用了，页面由于某种原因没有被处理，所以再次添加它作为种子不会改变问题

无论如何，crawler4j的最新版本处理许多页面的能力要好得多，因此只要升级到v4.1（当前）或更高版本，您就可以抓取更多页面。

如果您觉得我的答案合适，您能接受吗？