solr性能国际化

solr性能国际化,solr,lucene,solrcloud,Solr,Lucene,Solrcloud,目前我们使用ApacheSolr来索引英语语言数据。我们索引了6000多万份文档。除英语外,我们还将用另外20种语言编制数据索引。这里的主要要求是搜索所有语言,而不仅仅是一种语言。搜索字段名称应保持不变。 我们提出了两个主要的设计: 选项1:将语言数据索引到它自己的集合中。例如,集合1_en、集合1_de。然后跨集合进行搜索。在这里,我们可以控制所使用的分析仪 选项2:使用单个集合,在schema.xml中声明一个新字段,如name\u en、name\u de等,然后使用copyfield复制

目前我们使用ApacheSolr来索引英语语言数据。我们索引了6000多万份文档。除英语外,我们还将用另外20种语言编制数据索引。这里的主要要求是搜索所有语言,而不仅仅是一种语言。搜索字段名称应保持不变。 我们提出了两个主要的设计:

  • 选项1:将语言数据索引到它自己的集合中。例如,集合1_en、集合1_de。然后跨集合进行搜索。在这里,我们可以控制所使用的分析仪
  • 选项2:使用单个集合,在schema.xml中声明一个新字段,如name\u en、name\u de等,然后使用copyfield复制值或。以编程方式确定语言(使用语言代码)并将其添加到适当的字段中
  • 哪一种方法是最佳的w.r.t性能方法?或者有没有更好的方法来处理这种情况。
    编辑:此处数据不翻译。i、 字段数据不是字段数据的翻译,例如人名、公司名等