Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/gwt/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web crawler Nutch删除原始html和解析数据,但保留爬网历史记录_Web Crawler_Nutch_Nutch2 - Fatal编程技术网

Web crawler Nutch删除原始html和解析数据,但保留爬网历史记录

Web crawler Nutch删除原始html和解析数据,但保留爬网历史记录,web-crawler,nutch,nutch2,Web Crawler,Nutch,Nutch2,我已经安装了Nutch1.17来抓取一些域。我在存储方面有一些有限的资源。爬虫程序将在几个小时后一次又一次地启动,以查找和下载域上的新页面。每次输入的数据也被索引到Solr中。现在,是否有某种方法可以从Nutch(crawldb)中删除已解析和原始的HTML数据,但将已爬网的url的历史记录保留在db中。这将有助于减少存储,但也避免重新抓取页面(在时间段之前) 有可能吗?是否有其他最佳策略

我已经安装了Nutch1.17来抓取一些域。我在存储方面有一些有限的资源。爬虫程序将在几个小时后一次又一次地启动,以查找和下载域上的新页面。每次输入的数据也被索引到Solr中。现在,是否有某种方法可以从Nutch(crawldb)中删除已解析和原始的HTML数据,但将已爬网的url的历史记录保留在db中。这将有助于减少存储,但也避免重新抓取页面(在时间段之前)

有可能吗?是否有其他最佳策略