Apache Solr 5-在字段中消除重复数据

Apache Solr 5-在字段中消除重复数据,apache,solr,deduplication,Apache,Solr,Deduplication,这是我的问题请原谅我的冗长: 我有数以百万计的文档,它们都是独一无二的 但是,所有文档都包含一个“描述”字段,该字段包含的数据在所有1000万个文档的文本中只有少数不同的变化。这个字段很大,大约400-800字 消除“描述”字段中重复数据的最合适方法是什么 让我详细说明一下。下面是一个简化的模式示例: Doc_id <-- this is unique Title <-- always unique as well Descripti

这是我的问题请原谅我的冗长: 我有数以百万计的文档,它们都是独一无二的

但是,所有文档都包含一个“描述”字段,该字段包含的数据在所有1000万个文档的文本中只有少数不同的变化。这个字段很大,大约400-800字

消除“描述”字段中重复数据的最合适方法是什么

让我详细说明一下。下面是一个简化的模式示例:

Doc_id           <-- this is unique
Title                <-- always unique as well
Description    <-- contains mostly dupe data 
我搜索标题和描述,但只返回标题本身

我对Solr相当陌生,但一直找不到任何关于如何处理此类场景的信息。如果有关系,我会在Ubuntu上运行Solr5


谢谢你的帮助

我将尝试提供一些策略来解决您的问题

您的意思是搜索标题和描述,这意味着您应该在schema.xml中将这些字段设置为index=true。仅返回标题,这意味着仅需将标题设置为存储=真,说明应设置为存储=假。有关存储与索引的更多信息,请参阅此帖子:

您可以尝试的另一个有用选项是字段选项压缩。如果需要存储字段,可以对某些字段(如TextField和StrField)使用gzip压缩,请参阅:了解更多信息

最后,Solr支持重复数据消除,请参阅:。我没有尝试这个功能,但从它的声音,你可以防止几乎重复的文档被索引或标记重复。也许它的目标是允许搜索结果中的重复折叠以及添加文档时的重复数据消除。你在找什么


你是否对所有三个都设置了索引=真fields@swaraj-是的,但那跟什么有关系?