Nutch+;索尔;SolrDeleteDuplicates删除除一个索引外的所有索引

Nutch+;索尔;SolrDeleteDuplicates删除除一个索引外的所有索引,solr,rss,indexing,duplicates,nutch,Solr,Rss,Indexing,Duplicates,Nutch,我有一个运行Nutch的服务器,它向Solr提供数据。Nutch的输入是一个rss提要的xml,它似乎使用了正确的提要插件来解析它 运行基本爬网时,它会正确地爬网和标识xml中的各种链接,并为正确数量的文档编制索引。然而,SolrDeleteDuplicates似乎删除了除一个之外的所有内容-未被删除的似乎是随机的 Indexing 21 documents SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22 So

我有一个运行Nutch的服务器,它向Solr提供数据。Nutch的输入是一个rss提要的xml,它似乎使用了正确的提要插件来解析它

运行基本爬网时,它会正确地爬网和标识xml中的各种链接,并为正确数量的文档编制索引。然而,SolrDeleteDuplicates似乎删除了除一个之外的所有内容-未被删除的似乎是随机的

 Indexing 21 documents
 SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22
 SolrDeleteDuplicates: starting at 2013-11-15 13:35:53
 SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
 SolrDeleteDuplicates: deleting 20 duplicates

有什么想法吗?

很可能您错误地配置了重复数据消除设置,以查看所有条目都相同的字段。所以,索尔认为它们都是相同的记录

如果没有,请使用重复数据消除组件的配置更新您的问题