Url Nutch-爬行域优先_Url_Web Crawler_Nutch

Url Nutch-爬行域优先

url web-crawler

Url Nutch-爬行域优先,url,web-crawler,nutch,Url,Web Crawler,Nutch,我是Nutch的新手，拥有非常丰富的经验，我尝试让它做一些特定的爬行，例如，我希望它首先进入一个特定领域（例如wikipedia）的3个层次-这一部分可以通过修改regex urlfilter文件来实现但我想让它开始抓取它之前获取的所有外部链接，但只有1级深度所以，我的问题是，有没有办法从第一次运行中获取已爬网链接的列表，以便它们可以用作第二次爬网的种子？您可以使用以下命令获取已爬网URL的列表： bin/nutch readdb crawl/crawldb -dump file 然后，您

我是Nutch的新手，拥有非常丰富的经验，我尝试让它做一些特定的爬行，例如，我希望它首先进入一个特定领域（例如wikipedia）的3个层次-这一部分可以通过修改regex urlfilter文件来实现

但我想让它开始抓取它之前获取的所有外部链接，但只有1级深度

所以，我的问题是，有没有办法从第一次运行中获取已爬网链接的列表，以便它们可以用作第二次爬网的种子？

您可以使用以下命令获取已爬网URL的列表：

bin/nutch readdb crawl/crawldb -dump file

然后，您可以使用该命令的输出手动编辑URL/seed.txt文件。

是的，谢谢您的回答：）我通过在返回URL的solr上运行query解决了这个问题，我忘记了我有一个字段是与其他内容一起获取的；）