如何在ApacheNutch中获取webgraph?

如何在ApacheNutch中获取webgraph?,apache,nutch,Apache,Nutch,我已经使用命令“bin/nutch-webgraph-segmentDir-crawl/segments-webgraphdb-crawl/webgraphdb”在apache nutch中生成了webgraphdb。。。。它在crawl/webgraphdb中生成了三个文件夹,分别是inlink、outlink和nodes。每个文件夹都包含两个二进制文件,如数据和索引。如何在ApacheNutch中获取可视化web图形?网络图的用途是什么?网络图是基于链接结构计算分数的一个步骤,即网络图: w

我已经使用命令“bin/nutch-webgraph-segmentDir-crawl/segments-webgraphdb-crawl/webgraphdb”在apache nutch中生成了webgraphdb。。。。它在crawl/webgraphdb中生成了三个文件夹,分别是inlink、outlink和nodes。每个文件夹都包含两个二进制文件,如数据和索引。如何在ApacheNutch中获取可视化web图形?网络图的用途是什么?

网络图是基于链接结构计算分数的一个步骤,即网络图:

webgraph将为指定的段生成数据结构 linkrank将根据之前的结构计算分数 scoreupdater将把分数从webgraph更新回crawldb 请注意,此程序非常CPU/IO密集,默认情况下会忽略网站的内部链接

您可以使用nodedumper命令从webgraph数据中获取有用的数据,包括节点的实际分数和最高分数的InLink/Outlink。但是这并不打算可视化,尽管您可以解析此命令的输出并生成您可能需要的任何可视化


也就是说,自从Nutch 1.11以来,插件索引链接已经添加,这将允许您将每个URL的内链接和外链接索引到Solr/ES中。我已经使用这个插件索引到Solr以及sigmajs库中,来生成我爬网的链接结构的一些图形可视化,也许这可以满足您的需要。

Webgraph是基于链接结构计算分数的一个步骤,即Webgraph:

webgraph将为指定的段生成数据结构 linkrank将根据之前的结构计算分数 scoreupdater将把分数从webgraph更新回crawldb 请注意,此程序非常CPU/IO密集,默认情况下会忽略网站的内部链接

您可以使用nodedumper命令从webgraph数据中获取有用的数据,包括节点的实际分数和最高分数的InLink/Outlink。但是这并不打算可视化,尽管您可以解析此命令的输出并生成您可能需要的任何可视化


也就是说,自从Nutch 1.11以来,插件索引链接已经添加,这将允许您将每个URL的内链接和外链接索引到Solr/ES中。我已经使用这个插件索引到Solr以及sigmajs库中来生成我爬网链接结构的一些图形可视化,也许这可以满足您的需要。

非常感谢您的回答!!这真的很有帮助。我们正在开发一个使用nutch和solr的搜索引擎。我们希望您能为我们的项目提供指导。在生成包含内链接、大纲链接和节点的webgraphdb后,是否可以共享您的联系信息。您能清楚地解释一下如何使用sigmajs生成可视图形吗?在这方面你能帮我们吗?嗨@KAP,仔细看一下,nodedumper程序的输出不包含内链接和外链接,而是使用内链接/外链接的数量或分数对URL列表进行排序。这意味着它确实使用了链接信息,但它没有以可用的方式输出。该插件应该可以工作,这就是我所做的。你可以联系我:betancourt.jorge在gmail.com.Hi@JorgeLuis,我使用同一个插件为每个URL的内联链接和大纲链接编制索引,但不知何故,只有大纲链接在SOLR中被索引,而不是内联链接。如果我们还需要做其他事情来索引inlinks,您能告诉我吗?您的inlinks来自同一主机?db.ignore.internal.links属性的值是多少?另外,linkdb.ignore.internal.links属性默认为true,导致Nutch忽略来自同一主机的链接。非常感谢您的回答!!这真的很有帮助。我们正在开发一个使用nutch和solr的搜索引擎。我们希望您能为我们的项目提供指导。在生成包含内链接、大纲链接和节点的webgraphdb后,是否可以共享您的联系信息。您能清楚地解释一下如何使用sigmajs生成可视图形吗?在这方面你能帮我们吗?嗨@KAP,仔细看一下,nodedumper程序的输出不包含内链接和外链接,而是使用内链接/外链接的数量或分数对URL列表进行排序。这意味着它确实使用了链接信息,但它没有以可用的方式输出。该插件应该可以工作,这就是我所做的。你可以联系我:betancourt.jorge在gmail.com.Hi@JorgeLuis,我使用同一个插件为每个URL的内联链接和大纲链接编制索引,但不知何故,只有大纲链接在SOLR中被索引,而不是内联链接。如果我们还需要做其他事情来索引inlinks,您能告诉我吗?您的inlinks来自同一主机?db.ignore.internal.links属性的值是多少?此外,linkdb.ignore.internal.links属性是t rue默认情况下导致Nutch忽略来自同一主机的链接。