Web crawler Nutch-反复访问几页以找到新链接_Web Crawler_Nutch_Nutch2

Web crawler Nutch-反复访问几页以找到新链接

web-crawler

Web crawler Nutch-反复访问几页以找到新链接,web-crawler,nutch,nutch2,Web Crawler,Nutch,Nutch2,我已经设置了Nutch 1.17，只使用inlinks爬行来爬行几千个域。我的一个主要要求是我应该一次又一次地访问主页（比如说2小时后），如果有任何新的页面，那么只应该对其进行爬网最好的办法是什么？我正在考虑爬网一次又一次地运行注射器作业来爬网主页。这条路对吗？同时，我应该如何确保InLink也能随着时间的推移而恢复。您能找到解决方案吗？是的，我找到了解决方案。在seed中，您应该指定重新访问时间，例如4小时。然后，这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗？我知

我已经设置了Nutch 1.17，只使用inlinks爬行来爬行几千个域。我的一个主要要求是我应该一次又一次地访问主页（比如说2小时后），如果有任何新的页面，那么只应该对其进行爬网

最好的办法是什么？

我正在考虑爬网一次又一次地运行注射器作业来爬网主页。这条路对吗？同时，我应该如何确保InLink也能随着时间的推移而恢复。

您能找到解决方案吗？是的，我找到了解决方案。在seed中，您应该指定重新访问时间，例如4小时。然后，这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗？我知道你正在使用nutch webui@Shafiq。我可以知道nutch知道如何添加新页面，然后对其进行爬网。你能帮我吗？你能找到解决方案吗？是的，我找到了解决方案。在seed中，您应该指定重新访问时间，例如4小时。然后，这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗？我知道你正在使用nutch webui@ShafiqMay。我可以知道nutch知道如何添加新页面，然后对其进行爬网。你能帮我吗。