Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/mongodb/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web crawler Nutch-反复访问几页以找到新链接_Web Crawler_Nutch_Nutch2 - Fatal编程技术网

Web crawler Nutch-反复访问几页以找到新链接

Web crawler Nutch-反复访问几页以找到新链接,web-crawler,nutch,nutch2,Web Crawler,Nutch,Nutch2,我已经设置了Nutch 1.17,只使用inlinks爬行来爬行几千个域。我的一个主要要求是我应该一次又一次地访问主页(比如说2小时后),如果有任何新的页面,那么只应该对其进行爬网 最好的办法是什么? 我正在考虑爬网一次又一次地运行注射器作业来爬网主页。这条路对吗?同时,我应该如何确保InLink也能随着时间的推移而恢复。您能找到解决方案吗?是的,我找到了解决方案。在seed中,您应该指定重新访问时间,例如4小时。然后,这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗?我知

我已经设置了Nutch 1.17,只使用inlinks爬行来爬行几千个域。我的一个主要要求是我应该一次又一次地访问主页(比如说2小时后),如果有任何新的页面,那么只应该对其进行爬网

最好的办法是什么?
我正在考虑爬网一次又一次地运行注射器作业来爬网主页。这条路对吗?同时,我应该如何确保InLink也能随着时间的推移而恢复。

您能找到解决方案吗?是的,我找到了解决方案。在seed中,您应该指定重新访问时间,例如4小时。然后,这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗?我知道你正在使用nutch webui@Shafiq。我可以知道nutch知道如何添加新页面,然后对其进行爬网。你能帮我吗?你能找到解决方案吗?是的,我找到了解决方案。在seed中,您应该指定重新访问时间,例如4小时。然后,这些URL将在4小时后再次被选择。我可以知道nutchMay中的参数吗?我知道你正在使用nutch webui@ShafiqMay。我可以知道nutch知道如何添加新页面,然后对其进行爬网。你能帮我吗。