elasticsearch 如何在Elasticsearch上索引混合语言内容?,elasticsearch,indexing,full-text-search,search-engine,multiple-languages,elasticsearch,Indexing,Full Text Search,Search Engine,Multiple Languages" /> elasticsearch 如何在Elasticsearch上索引混合语言内容?,elasticsearch,indexing,full-text-search,search-engine,multiple-languages,elasticsearch,Indexing,Full Text Search,Search Engine,Multiple Languages" />

elasticsearch 如何在Elasticsearch上索引混合语言内容?

elasticsearch 如何在Elasticsearch上索引混合语言内容?,elasticsearch,indexing,full-text-search,search-engine,multiple-languages,elasticsearch,Indexing,Full Text Search,Search Engine,Multiple Languages,如何在Elasticsearch中索引混合语言内容。假设我们有一个系统,人们可以提交来自世界各地的内容。国家范围从美国、加拿大、欧洲、日本、韩国、印度、中国、肯尼亚、阿拉伯人、俄罗斯到世界各地 内容可以是我们事先不知道的任何语言,甚至可以是混合语言。我们不想猜测内容的语言,并为每个输入的语言创建多个特定于语言的索引,我们认为这是无法管理的 在Elasticsearch中,我们需要一个简单的解决方案来高效地索引这些内容,该解决方案具有全文搜索功能和模糊字符串搜索功能。在这方面有人能帮忙吗?你想要实

如何在Elasticsearch中索引混合语言内容。假设我们有一个系统,人们可以提交来自世界各地的内容。国家范围从美国、加拿大、欧洲、日本、韩国、印度、中国、肯尼亚、阿拉伯人、俄罗斯到世界各地

内容可以是我们事先不知道的任何语言,甚至可以是混合语言。我们不想猜测内容的语言,并为每个输入的语言创建多个特定于语言的索引,我们认为这是无法管理的


在Elasticsearch中,我们需要一个简单的解决方案来高效地索引这些内容,该解决方案具有全文搜索功能和模糊字符串搜索功能。在这方面有人能帮忙吗?

你想要实现的目标是什么?是否希望仅在查询时使用的语言进行点击?或者你会接受其他语言的点击率吗

一种方法是在输入上运行elasticsearch的所有不同语言分析器,并将结果存储在单独的字段中,例如由当前分析器的语言作为后缀。 然后,在查询时,如果没有方法猜测最相关的字段,则必须搜索所有这些字段

但是,由于您创建了大量未使用的副本,因此这很可能会爆发。这也没有单独的索引那么优雅

如果您真的不知道在生产过程中会看到多少种语言,我强烈建议您进行评估。每种语言都有一个不同的索引,这将使您能够更好地控制输入/输出,并使您能够根据实际用例对引擎进行微调

或者,您可以从一个简单的空白标记器开始,评估搜索结果的质量(每个用例)。
您将不会有特定于语言的词干分析,但对于大多数语言,至少会有令牌流。

我希望实现以下目标:我有来自世界各地的最终用户输入的数百万条记录。他们用自己的语言输入,我不知道他们在输入数据时使用了什么语言。考虑推特,用户用自己的语言或混合语言写评论。但是我希望中文关键字与所有数据中的中文内容相匹配,或者西班牙语关键字与所有数据中的西班牙语内容相匹配。由于语言可以超过数百种,因此为每种语言类型构建分析器是不可行的。我可以牺牲一些精度来优化解决方案。Elasticsearch提供34种不同的分析仪。也许这样你就可以开始了?如果你的目标是构建类似Twitter的东西,那么你需要一个更加复杂的架构,IMHO。Twitter与bing合作进行语言翻译,但“仅”支持40种语言。详细信息请参见此处:也许您应该避免早期优化,并检查用户以稀有语言发布的项目数量是否真的很重要。我的目标不是翻译文本。我的目标是优化用户提交文本的搜索机制。我需要一个全文搜索引擎,所有的uni代码支持的语言工作正常。我知道这是有局限性的,但也有一些其他搜索引擎支持多语言全文搜索,几乎不费吹灰之力。我非常感谢你的建议,但我正在寻找一种具体的方法。