如何根据索引字段查找solr中的重复文档数

如何根据索引字段查找solr中的重复文档数,solr,duplicates,Solr,Duplicates,我在solr中几乎没有重复的文档。模式有一个自动生成的uuid作为唯一键,因此重复项可以进入索引。我需要根据模式中的字段获取重复文档的计数 我试图在不编写客户机程序和查看完整结果集的情况下快速获得数字,而solr控制台本身就是这样。 尝试使用面,但无法获取总计数。下面的查询为“idfield”的每个值提供了重复项,但它们需要迭代到最后一页并求和(超过几百万个条目) q=*:*&facet=true&facet.mincount=2&facet.field=idfieldjason facet查询

我在solr中几乎没有重复的文档。模式有一个自动生成的uuid作为唯一键,因此重复项可以进入索引。我需要根据模式中的字段获取重复文档的计数

我试图在不编写客户机程序和查看完整结果集的情况下快速获得数字,而solr控制台本身就是这样。 尝试使用面,但无法获取总计数。下面的查询为“idfield”的每个值提供了重复项,但它们需要迭代到最后一页并求和(超过几百万个条目)


q=*:*&facet=true&facet.mincount=2&facet.field=idfield

jason facet查询可用于查找本博客中解释的唯一值

或者,也可以使用折叠过滤器来查找差异
q=*:*&fq={!collapse=true field=idfield}-获取numfound并从MatchAllDocs查询中减去(*:*)

您还可以使用facet.mincount=2通过在唯一id字段上刻面来获取重复文档。Ex:/solr/core/select?q=:&facet=on&facet.field=uniqueidfield&facet.mincount=2&facet.missing=true 您还可以添加facet.limit=-1&rows=0来获取具有重复ID的文档ID