Solr Nutch爬网-删除每个爬网上的段

Solr Nutch爬网-删除每个爬网上的段,solr,nutch,Solr,Nutch,我注意到,在每次Nutch爬行期间,发送给Solr的索引都不一致。有时会显示网页的最新更改,有时会显示较旧的更改 原因 注意到Nutch从一个较老的部分向Solr提供索引 当前解决方案 在抓取之前删除所有旧段,似乎可以解决问题 问题 我想知道这种方法是否有任何影响,或者我对此的理解是错误的。还想知道为什么Nutch在爬网过程中不会自动删除较旧的段 谢谢。如果(再次)索引了多个段,并且相同的段包含在两个或多个段中,则不能保证索引了最新版本。这是一个已知的问题()。最简单的解决方案是只将最近获取的段

我注意到,在每次Nutch爬行期间,发送给Solr的索引都不一致。有时会显示网页的最新更改,有时会显示较旧的更改

原因

注意到Nutch从一个较老的部分向Solr提供索引

当前解决方案

在抓取之前删除所有旧段,似乎可以解决问题

问题

我想知道这种方法是否有任何影响,或者我对此的理解是错误的。还想知道为什么Nutch在爬网过程中不会自动删除较旧的段


谢谢。

如果(再次)索引了多个段,并且相同的段包含在两个或多个段中,则不能保证索引了最新版本。这是一个已知的问题()。最简单的解决方案是只将最近获取的段发送到索引器。脚本
bin/crawl
执行此操作,索引步骤在每个周期结束时完成,用于在此周期中获取的段