Web crawler nutch生成器是否对初始链接使用爬网DB？_Web Crawler_Nutch

Web crawler nutch生成器是否对初始链接使用爬网DB？

web-crawler

Web crawler nutch生成器是否对初始链接使用爬网DB？,web-crawler,nutch,Web Crawler,Nutch,我知道初始种子是由平面文件提供的。然而，这些URL被注入到哪里？是爬虫吗？如果是这样的话，爬虫程序获取的新链接是否存储回crawlDB？当系统关闭时，crawlDB会在下次nutch启动时刷新吗事实上，我希望nutch在系统关闭的情况下恢复爬行。是的，注入会将种子的平面列表变成爬行数据库中的条目。在更新步骤中，解析步骤发现的新链接将与现有的crawldb合并。Nutch不会自行恢复爬网，如果系统关闭，则必须重新启动Nutch脚本，并且要采取的操作将取决于它停止时的位置如果您需要一个连续的爬虫

我知道初始种子是由平面文件提供的。然而，这些URL被注入到哪里？是爬虫吗？如果是这样的话，爬虫程序获取的新链接是否存储回crawlDB？当系统关闭时，crawlDB会在下次nutch启动时刷新吗

事实上，我希望nutch在系统关闭的情况下恢复爬行。是的，注入会将种子的平面列表变成爬行数据库中的条目。在更新步骤中，解析步骤发现的新链接将与现有的crawldb合并。Nutch不会自行恢复爬网，如果系统关闭，则必须重新启动Nutch脚本，并且要采取的操作将取决于它停止时的位置

如果您需要一个连续的爬虫程序，在出现故障时自动恢复，那么StormCrawler可能是一个更好的选择

有相当多的Nutch教程可以帮助理解它是如何工作的，其中包括Nutch和StormCrawler