基于分面多值字段的Solr重复文档计数

基于分面多值字段的Solr重复文档计数,solr,duplicates,faceted-search,Solr,Duplicates,Faceted Search,我必须根据多值字段中的相同值查找重复文档的计数。这里的文档指的是我用例中的BI报告。这个多值字段是用于生成特定BI报告的sql表列的元数据。我知道这可以通过solr faceting实现,但我不确定当字段是多值的并且有一个链接到它的分析链(如标记化、小写等)时如何实现 有人能帮忙吗?那么复制是基于字段的标记化和处理形式,还是基于字段中原始的存储文本?多值字段是一个逗号分隔的列名,BI报告是从该列名创建的,这些值应该相同(原始形式)当我们考虑确切的重复。@ MatsLindh,我想更新一下目前的进

我必须根据多值字段中的相同值查找重复文档的计数。这里的文档指的是我用例中的BI报告。这个多值字段是用于生成特定BI报告的sql表列的元数据。我知道这可以通过solr faceting实现,但我不确定当字段是多值的并且有一个链接到它的分析链(如标记化、小写等)时如何实现


有人能帮忙吗?

那么复制是基于字段的标记化和处理形式,还是基于字段中原始的存储文本?多值字段是一个逗号分隔的列名,BI报告是从该列名创建的,这些值应该相同(原始形式)当我们考虑确切的重复。@ MatsLindh,我想更新一下目前的进展,关于重复计数。我已经为字符串字段启用了多值功能,现在solr正在多值列表的每个字符串值上刻面,这需要很多时间,而且这不是我想要的。我希望基于多值字段(在重复文档中,字符串的整个列表是相同的)获得重复的计数。您能帮忙吗?索引一个单独的字段,将所有值连接在一起,方法是使用
|
或代码中的另一个分隔符连接它们。如有必要,您还可以为提交的每个文档提供。