Web crawler Nutch-反复访问几页以找到新链接
我已经设置了Nutch 1.17,只使用inlinks爬行来爬行几千个域。我的一个主要要求是我应该一次又一次地访问主页(比如说2小时后),如果有任何新的页面,那么只应该对其进行爬网 最好的办法是什么?Web crawler Nutch-反复访问几页以找到新链接,web-crawler,nutch,nutch2,Web Crawler,Nutch,Nutch2,我已经设置了Nutch 1.17,只使用inlinks爬行来爬行几千个域。我的一个主要要求是我应该一次又一次地访问主页(比如说2小时后),如果有任何新的页面,那么只应该对其进行爬网 最好的办法是什么? 我正在考虑爬网一次又一次地运行注射器作业来爬网主页。这条路对吗?同时,我应该如何确保InLink也能随着时间的推移而恢复。您能找到解决方案吗?是的,我找到了解决方案。在seed中,您应该指定重新访问时间,例如4小时。然后,这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗?我知
我正在考虑爬网一次又一次地运行注射器作业来爬网主页。这条路对吗?同时,我应该如何确保InLink也能随着时间的推移而恢复。您能找到解决方案吗?是的,我找到了解决方案。在seed中,您应该指定重新访问时间,例如4小时。然后,这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗?我知道你正在使用nutch webui@Shafiq。我可以知道nutch知道如何添加新页面,然后对其进行爬网。你能帮我吗?你能找到解决方案吗?是的,我找到了解决方案。在seed中,您应该指定重新访问时间,例如4小时。然后,这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗?我知道你正在使用nutch webui@ShafiqMay。我可以知道nutch知道如何添加新页面,然后对其进行爬网。你能帮我吗。