Web crawler 在ApacheNutch中仅创建linkdb

Web crawler 在ApacheNutch中仅创建linkdb,web-crawler,nutch,Web Crawler,Nutch,我正在使用ApacheNutch1.7版来抓取互联网。一切正常。然而,我对内链接和外链接感兴趣,因为我所做的只是链接分析。因此,我对内容、解析文本等不感兴趣。我如何指导nutch只构建linkdb?但不是其他的(crawldb或segmentdb),因为我对html内容不感兴趣。是否有在爬网时自动清除爬网数据库和分段数据库的选项)。我正在互联网上进行大规模的爬行,需要非常节省空间 中给出了限制爬网内容的详细信息 您可以在nutch站点配置中使用以下配置属性 <property>

我正在使用ApacheNutch1.7版来抓取互联网。一切正常。然而,我对内链接和外链接感兴趣,因为我所做的只是链接分析。因此,我对内容、解析文本等不感兴趣。我如何指导nutch只构建linkdb?但不是其他的(crawldb或segmentdb),因为我对html内容不感兴趣。是否有在爬网时自动清除爬网数据库和分段数据库的选项)。我正在互联网上进行大规模的爬行,需要非常节省空间

中给出了限制爬网内容的详细信息

您可以在nutch站点配置中使用以下配置属性

<property>
  <name>fetcher.store.content</name>
  <value>false</value>
  <description>If true, fetcher will store content.</description>
</property>

fetcher.store.content
假的
如果为true,则fetcher将存储内容。

请注意,如果您在初始爬网中设置了此选项,则不会生成任何内容,因此不会有链接,并且回迁程序会中途失败,说它没有段内容

介意更新那个链接吗?它不再有效了。