在nutch 1.3中,如何使用不同的计划爬网重新爬网不同的站点?

在nutch 1.3中,如何使用不同的计划爬网重新爬网不同的站点?,nutch,web-crawler,Nutch,Web Crawler,我有很多网站;每个月都有一些内容变化,每天都有一些内容变化。Nutch1.3以前爬网过,现在我想用不同的计划爬网重新爬网。 我怎么能做到? 谢谢 您可以编写一个shell脚本,其中可以指定用于运行crawler的命令名,并在linux中使用cron命令来调度此脚本的执行 甚至谷歌也会在一段时间后重复抓取整个网络。您可以编写一个shell脚本,在其中指定用于运行crawler的命令名,并在linux中使用cron命令来调度此脚本的执行 甚至谷歌也会在一段时间后重复抓取整个网站。您可以为种子文件

我有很多网站;每个月都有一些内容变化,每天都有一些内容变化。Nutch1.3以前爬网过,现在我想用不同的计划爬网重新爬网。 我怎么能做到?
谢谢

您可以编写一个shell脚本,其中可以指定用于运行crawler的命令名,并在linux中使用cron命令来调度此脚本的执行


甚至谷歌也会在一段时间后重复抓取整个网络。

您可以编写一个shell脚本,在其中指定用于运行crawler的命令名,并在linux中使用cron命令来调度此脚本的执行


甚至谷歌也会在一段时间后重复抓取整个网站。

您可以为种子文件中的每个条目指定抓取间隔(两次连续抓取之间的时间),如下所示:

http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000

如果您使用的是
AdaptiveFetchSchedule
,则上述条目只需设置开始时间间隔以及每次重新爬网后的时间间隔,具体取决于页面是否更改,此时间间隔将增加或减少。在这种情况下,如果您总是想要一个固定的间隔,您可以使用
nutch.fetchInterval.fixed
而不是上面几行中的
nutch.fetchInterval

您可以为种子文件中的每个条目指定提取间隔(两次连续爬网之间的时间),如下所示:

http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000
如果您使用的是
AdaptiveFetchSchedule
,则上述条目只需设置开始时间间隔以及每次重新爬网后的时间间隔,具体取决于页面是否更改,此时间间隔将增加或减少。在这种情况下,如果您总是想要一个固定的间隔,您可以使用
nutch.fetchInterval.fixed
而不是上面几行中的
nutch.fetchInterval