Indexing Solr方面计数不正确,如何消除重复

Indexing Solr方面计数不正确,如何消除重复,indexing,solr,facet,Indexing,Solr,Facet,我们使用两个Solr来索引文件。有时一篇文章在两个Solr中都被索引,因为我们进行了更新。由于这些重复的项目,会导致方面计数不正确的问题。如何消除重复计数?我的建议是不要保留重复的文章。因此,您需要一种方法来识别这些重复的文章并将其从一个SOLR中删除 如果你不想删除重复的文章,你仍然需要跟踪它们。 了解SOLR1中的哪些项目在SOLR2中重复将有助于消除重复计数,如下所示: 在SOLR1中创建一个名为: IsDuplicateField = true, if article is dupli

我们使用两个Solr来索引文件。有时一篇文章在两个Solr中都被索引,因为我们进行了更新。由于这些重复的项目,会导致方面计数不正确的问题。如何消除重复计数?

我的建议是不要保留重复的文章。因此,您需要一种方法来识别这些重复的文章并将其从一个SOLR中删除

如果你不想删除重复的文章,你仍然需要跟踪它们。 了解SOLR1中的哪些项目在SOLR2中重复将有助于消除重复计数,如下所示:

  • 在SOLR1中创建一个名为:

    IsDuplicateField = true, if article is duplicated in SOLR2
                     = false, otherwise
    
  • 在查询SOLR1时,将:IsDuplicatedField=true添加到facets

  • 检索结果时,只需使用SOLR1中IsDuplicateField的总数来减少刻面计数的总数
在这种情况下,facet IsDuplicateField将检索所有重复的文章并匹配您的查询


祝你好运

谢谢你,多林!现在,在索引完成后,我们使用合并-排序-相似方法来消除文档的重复。我稍后会尝试你的解决方案!