Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/swift/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Url Nutch-爬行域优先_Url_Web Crawler_Nutch - Fatal编程技术网

Url Nutch-爬行域优先

Url Nutch-爬行域优先,url,web-crawler,nutch,Url,Web Crawler,Nutch,我是Nutch的新手,拥有非常丰富的经验,我尝试让它做一些特定的爬行,例如,我希望它首先进入一个特定领域(例如wikipedia)的3个层次-这一部分可以通过修改regex urlfilter文件来实现 但我想让它开始抓取它之前获取的所有外部链接,但只有1级深度 所以,我的问题是,有没有办法从第一次运行中获取已爬网链接的列表,以便它们可以用作第二次爬网的种子?您可以使用以下命令获取已爬网URL的列表: bin/nutch readdb crawl/crawldb -dump file 然后,您

我是Nutch的新手,拥有非常丰富的经验,我尝试让它做一些特定的爬行,例如,我希望它首先进入一个特定领域(例如wikipedia)的3个层次-这一部分可以通过修改regex urlfilter文件来实现

但我想让它开始抓取它之前获取的所有外部链接,但只有1级深度


所以,我的问题是,有没有办法从第一次运行中获取已爬网链接的列表,以便它们可以用作第二次爬网的种子?

您可以使用以下命令获取已爬网URL的列表:

bin/nutch readdb crawl/crawldb -dump file

然后,您可以使用该命令的输出手动编辑URL/seed.txt文件。

是的,谢谢您的回答:)我通过在返回URL的solr上运行query解决了这个问题,我忘记了我有一个字段是与其他内容一起获取的;)