Web crawler Nutch删除原始html和解析数据，但保留爬网历史记录_Web Crawler_Nutch_Nutch2

Web crawler Nutch删除原始html和解析数据，但保留爬网历史记录

web-crawler

Web crawler Nutch删除原始html和解析数据，但保留爬网历史记录,web-crawler,nutch,nutch2,Web Crawler,Nutch,Nutch2,我已经安装了Nutch1.17来抓取一些域。我在存储方面有一些有限的资源。爬虫程序将在几个小时后一次又一次地启动，以查找和下载域上的新页面。每次输入的数据也被索引到Solr中。现在，是否有某种方法可以从Nutch（crawldb）中删除已解析和原始的HTML数据，但将已爬网的url的历史记录保留在db中。这将有助于减少存储，但也避免重新抓取页面（在时间段之前）有可能吗？是否有其他最佳策略

我已经安装了Nutch1.17来抓取一些域。我在存储方面有一些有限的资源。爬虫程序将在几个小时后一次又一次地启动，以查找和下载域上的新页面。每次输入的数据也被索引到Solr中。现在，是否有某种方法可以从Nutch（crawldb）中删除已解析和原始的HTML数据，但将已爬网的url的历史记录保留在db中。这将有助于减少存储，但也避免重新抓取页面（在时间段之前）

有可能吗？是否有其他最佳策略