Web crawler nutch生成器是否对初始链接使用爬网DB?

Web crawler nutch生成器是否对初始链接使用爬网DB?,web-crawler,nutch,Web Crawler,Nutch,我知道初始种子是由平面文件提供的。然而,这些URL被注入到哪里?是爬虫吗?如果是这样的话,爬虫程序获取的新链接是否存储回crawlDB?当系统关闭时,crawlDB会在下次nutch启动时刷新吗 事实上,我希望nutch在系统关闭的情况下恢复爬行。是的,注入会将种子的平面列表变成爬行数据库中的条目。在更新步骤中,解析步骤发现的新链接将与现有的crawldb合并。Nutch不会自行恢复爬网,如果系统关闭,则必须重新启动Nutch脚本,并且要采取的操作将取决于它停止时的位置 如果您需要一个连续的爬虫

我知道初始种子是由平面文件提供的。然而,这些URL被注入到哪里?是爬虫吗?如果是这样的话,爬虫程序获取的新链接是否存储回crawlDB?当系统关闭时,crawlDB会在下次nutch启动时刷新吗


事实上,我希望nutch在系统关闭的情况下恢复爬行。是的,注入会将种子的平面列表变成爬行数据库中的条目。在更新步骤中,解析步骤发现的新链接将与现有的crawldb合并。Nutch不会自行恢复爬网,如果系统关闭,则必须重新启动Nutch脚本,并且要采取的操作将取决于它停止时的位置

如果您需要一个连续的爬虫程序,在出现故障时自动恢复,那么StormCrawler可能是一个更好的选择

有相当多的Nutch教程可以帮助理解它是如何工作的,其中包括Nutch和StormCrawler