在nutch 1.3中，如何使用不同的计划爬网重新爬网不同的站点？_Nutch_Web Crawler

在nutch 1.3中，如何使用不同的计划爬网重新爬网不同的站点？

web-crawler

在nutch 1.3中，如何使用不同的计划爬网重新爬网不同的站点？,nutch,web-crawler,Nutch,Web Crawler,我有很多网站；每个月都有一些内容变化，每天都有一些内容变化。Nutch1.3以前爬网过，现在我想用不同的计划爬网重新爬网。我怎么能做到？谢谢您可以编写一个shell脚本，其中可以指定用于运行crawler的命令名，并在linux中使用cron命令来调度此脚本的执行甚至谷歌也会在一段时间后重复抓取整个网络。您可以编写一个shell脚本，在其中指定用于运行crawler的命令名，并在linux中使用cron命令来调度此脚本的执行甚至谷歌也会在一段时间后重复抓取整个网站。您可以为种子文件

我有很多网站；每个月都有一些内容变化，每天都有一些内容变化。Nutch1.3以前爬网过，现在我想用不同的计划爬网重新爬网。我怎么能做到？

谢谢

您可以编写一个shell脚本，其中可以指定用于运行crawler的命令名，并在linux中使用cron命令来调度此脚本的执行

甚至谷歌也会在一段时间后重复抓取整个网络。

您可以编写一个shell脚本，在其中指定用于运行crawler的命令名，并在linux中使用cron命令来调度此脚本的执行

甚至谷歌也会在一段时间后重复抓取整个网站。

您可以为种子文件中的每个条目指定抓取间隔（两次连续抓取之间的时间），如下所示：

http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000

如果您使用的是

AdaptiveFetchSchedule

，则上述条目只需设置开始时间间隔以及每次重新爬网后的时间间隔，具体取决于页面是否更改，此时间间隔将增加或减少。在这种情况下，如果您总是想要一个固定的间隔，您可以使用

nutch.fetchInterval.fixed

而不是上面几行中的

nutch.fetchInterval

。

您可以为种子文件中的每个条目指定提取间隔（两次连续爬网之间的时间），如下所示：

http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000

如果您使用的是

AdaptiveFetchSchedule

nutch.fetchInterval.fixed

而不是上面几行中的

nutch.fetchInterval