Web crawler 在ApacheNutch中仅创建linkdb_Web Crawler_Nutch

Web crawler 在ApacheNutch中仅创建linkdb

web-crawler

Web crawler 在ApacheNutch中仅创建linkdb,web-crawler,nutch,Web Crawler,Nutch,我正在使用ApacheNutch1.7版来抓取互联网。一切正常。然而，我对内链接和外链接感兴趣，因为我所做的只是链接分析。因此，我对内容、解析文本等不感兴趣。我如何指导nutch只构建linkdb？但不是其他的（crawldb或segmentdb），因为我对html内容不感兴趣。是否有在爬网时自动清除爬网数据库和分段数据库的选项）。我正在互联网上进行大规模的爬行，需要非常节省空间中给出了限制爬网内容的详细信息您可以在nutch站点配置中使用以下配置属性 <property>

我正在使用ApacheNutch1.7版来抓取互联网。一切正常。然而，我对内链接和外链接感兴趣，因为我所做的只是链接分析。因此，我对内容、解析文本等不感兴趣。我如何指导nutch只构建linkdb？但不是其他的（crawldb或segmentdb），因为我对html内容不感兴趣。是否有在爬网时自动清除爬网数据库和分段数据库的选项）。我正在互联网上进行大规模的爬行，需要非常节省空间

中给出了限制爬网内容的详细信息

您可以在nutch站点配置中使用以下配置属性

<property>
  <name>fetcher.store.content</name>
  <value>false</value>
  <description>If true, fetcher will store content.</description>
</property>


fetcher.store.content
假的
如果为true，则fetcher将存储内容。

请注意，如果您在初始爬网中设置了此选项，则不会生成任何内容，因此不会有链接，并且回迁程序会中途失败，说它没有段内容

介意更新那个链接吗？它不再有效了。