Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/qt/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nutch 2.x每次运行每个URL_Nutch - Fatal编程技术网

Nutch 2.x每次运行每个URL

Nutch 2.x每次运行每个URL,nutch,Nutch,在Nutch2.2.1中,当我每次运行Nutch时,它将对包括我已经爬网的所有URL进行爬网。我想一个网址只被爬网一次,无论多少次纳奇运行。如何配置它?获取网站后,Nutch将该网站的URL标记为已获取的URL,并且在下一轮爬网中不会再次爬网该URL。默认情况下,Nutch将在30天后重新爬网。通过修改db.fetch.interval.default属性,可以更改重新获取页面之间的默认秒数 希望这有帮助 Le Quoc Do但我使用mysql,我在表格网页中看到两列:fetchtime和pre

在Nutch2.2.1中,当我每次运行Nutch时,它将对包括我已经爬网的所有URL进行爬网。我想一个网址只被爬网一次,无论多少次纳奇运行。如何配置它?

获取网站后,Nutch将该网站的URL标记为已获取的URL,并且在下一轮爬网中不会再次爬网该URL。默认情况下,Nutch将在30天后重新爬网。通过修改db.fetch.interval.default属性,可以更改重新获取页面之间的默认秒数

希望这有帮助


Le Quoc Do

但我使用mysql,我在表格网页中看到两列:fetchtime和prevfetchtime,每次我重新抓取网站时,这两个字段都会改变。。。