elasticsearch,multilingual,Lucene,elasticsearch,Multilingual" /> elasticsearch,multilingual,Lucene,elasticsearch,Multilingual" />

用于Lucene/ElasticSearch的像样的多语言词干分析器或分析器?

用于Lucene/ElasticSearch的像样的多语言词干分析器或分析器?,lucene,elasticsearch,multilingual,Lucene,elasticsearch,Multilingual,我很好奇,是否有通用的分析器可以很好地对不同语言的文本进行词干分析。对于某些任务,进行适当的多语言搜索(例如将字段name拆分为name.english、name.french等)似乎有些过分 是否有一个分析器可以去除后缀(例如“dogs”->“dog”),并且不仅仅适用于英语?我真的不在乎它是否能进行语言检测等,而仅仅研究浪漫主义和日耳曼语可能就足够了。或者,质量损失是否严重到只使用特定于语言的分析器和特定于语言的查询总是值得的?您最好的选择是使用icu分析器。它们对于规范化很有用,但对于词干

我很好奇,是否有通用的分析器可以很好地对不同语言的文本进行词干分析。对于某些任务,进行适当的多语言搜索(例如将字段
name
拆分为
name.english
name.french
等)似乎有些过分


是否有一个分析器可以去除后缀(例如“dogs”->“dog”),并且不仅仅适用于英语?我真的不在乎它是否能进行语言检测等,而仅仅研究浪漫主义和日耳曼语可能就足够了。或者,质量损失是否严重到只使用特定于语言的分析器和特定于语言的查询总是值得的?

您最好的选择是使用icu分析器。它们对于规范化很有用,但对于词干分析等本质上特定于语言的事情用处不大

此外,还可以使用单独的语言字段,并根据该字段的值使用不同的分析程序。因此,您可以将这两种方法结合起来,转而使用icu标记器,并使用专门的分析器支持您关心的语言:


您可能希望观看最近柏林Buzzwords会议上关于多语言支持的演示文稿:。里面有很多好东西。跳到第27分钟,看一个使用不同分析器的例子。

AFAIK这是不存在的,而且由于每种语言的语义差异很大,实现起来非常困难。