Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/asp.net-core/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web crawler 从nutch获得链接_Web Crawler_Nutch - Fatal编程技术网

Web crawler 从nutch获得链接

Web crawler 从nutch获得链接,web-crawler,nutch,Web Crawler,Nutch,我正在使用Nutch1.3抓取一个网站。我想获得一个已爬网的URL列表,以及来自页面的URL 我使用readdb命令获取已爬网的URL列表 bin/nutch readdb crawl/crawldb -dump file 有没有办法通过读取crawdb或linkdb来查找页面上的URL 在org.apache.nutch.parse.html.HtmlParser中,我看到了outlinks数组,我想知道是否有一种从命令行访问它的快速方法。从命令行,您可以使用with-dump或-get选项

我正在使用Nutch1.3抓取一个网站。我想获得一个已爬网的URL列表,以及来自页面的URL

我使用readdb命令获取已爬网的URL列表

bin/nutch readdb crawl/crawldb -dump file
有没有办法通过读取crawdb或linkdb来查找页面上的URL


在org.apache.nutch.parse.html.HtmlParser中,我看到了outlinks数组,我想知道是否有一种从命令行访问它的快速方法。

从命令行,您可以使用with-dump或-get选项查看outlinks。比如说,

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump

您可以使用readlinkdb命令轻松完成此操作。它提供与url之间的所有内链接和外链接

bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)
有关更多信息,请参阅

准确地说,您指的是找到给定页面的大纲。我不知道您是否可以从命令行执行此操作。你应该能够在写作和地图/减少工作。。。没有我发现的那么难。
e.g. 

bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1