Web crawler Nutch删除原始html和解析数据,但保留爬网历史记录
我已经安装了Nutch1.17来抓取一些域。我在存储方面有一些有限的资源。爬虫程序将在几个小时后一次又一次地启动,以查找和下载域上的新页面。每次输入的数据也被索引到Solr中。现在,是否有某种方法可以从Nutch(crawldb)中删除已解析和原始的HTML数据,但将已爬网的url的历史记录保留在db中。这将有助于减少存储,但也避免重新抓取页面(在时间段之前) 有可能吗?是否有其他最佳策略Web crawler Nutch删除原始html和解析数据,但保留爬网历史记录,web-crawler,nutch,nutch2,Web Crawler,Nutch,Nutch2,我已经安装了Nutch1.17来抓取一些域。我在存储方面有一些有限的资源。爬虫程序将在几个小时后一次又一次地启动,以查找和下载域上的新页面。每次输入的数据也被索引到Solr中。现在,是否有某种方法可以从Nutch(crawldb)中删除已解析和原始的HTML数据,但将已爬网的url的历史记录保留在db中。这将有助于减少存储,但也避免重新抓取页面(在时间段之前) 有可能吗?是否有其他最佳策略