Solr Nutch细分市场磁盘空间需求快速增长
我正在运行Nutch(1.16)/Solr(8.5.1)爬行索引系统。我使用大约26000个URL作为种子列表,到目前为止,我已经用Solr Nutch细分市场磁盘空间需求快速增长,solr,web-crawler,nutch,Solr,Web Crawler,Nutch,我正在运行Nutch(1.16)/Solr(8.5.1)爬行索引系统。我使用大约26000个URL作为种子列表,到目前为止,我已经用/bin/crawl-I-s./URLsdata500索引了约100万页。今天早上,segments文件夹已经增长到120GB,这对于一百万页来说似乎太多了。我每1亿页阅读1TB是一个粗略的空间指南,所以我的运行速度是单是片段的10倍。我还读到我可以删除这些片段,如果它们已经合并到Solr中,并且长期只需要linkdb和ScrawlDB。但可悲的是,导致这一结论的对
/bin/crawl-I-s./URLsdata500
索引了约100万页。今天早上,segments文件夹已经增长到120GB,这对于一百万页来说似乎太多了。我每1亿页阅读1TB是一个粗略的空间指南,所以我的运行速度是单是片段的10倍。我还读到我可以删除这些片段,如果它们已经合并到Solr中,并且长期只需要linkdb和ScrawlDB。但可悲的是,导致这一结论的对话缺失了
我删除了segments文件夹,并再次开始了这个过程,以获得干净的数字,而不会有测试运行中的遗留问题。在将另外250.000页添加到Solr索引后,segments文件夹再次增长到40GB
所以我的问题是:
bin/crawl
是一个shell脚本,很容易根据需要进行调整,只需在循环中添加命令rm-rf“$crawl\u PATH”/segments/$SEGMENT
。但您也可以从昨天删除段(段名称是时间戳)。有时,如果出现问题,您需要检查该段以找出哪里出了问题
- 将属性
设置为truefetcher.parse
为false和fetcher.store.content
- 在脚本
中删除(注释掉)解析步骤bin/crawl
bin/crawl
是一个shell脚本,很容易根据需要进行调整,只需在循环中添加命令rm-rf“$crawl\u PATH”/segments/$SEGMENT
。但您也可以从昨天删除段(段名称是时间戳)。有时,如果出现问题,您需要检查该段以找出哪里出了问题
- 将属性
设置为truefetcher.parse
为false和fetcher.store.content
- 在脚本
中删除(注释掉)解析步骤bin/crawl