Internationalization Lucene/Solr:中文或日文查询字符串使用什么请求处理程序?

Internationalization Lucene/Solr:中文或日文查询字符串使用什么请求处理程序?,internationalization,solr,lucene,full-text-search,Internationalization,Solr,Lucene,Full Text Search,对于我的Solr服务器,一些查询字符串将使用亚洲语言,如中文或日语 对于这样的查询字符串,标准或Demax请求处理程序可以工作吗?我的理解是,标准和Demax处理程序都使用空格标记查询字符串。这对中国人或日本人都不起作用,对吗 在这种情况下,我应该使用什么请求处理程序?如果我需要为这些语言设置自定义请求处理程序,我该怎么做 谢谢。这不是关于请求处理程序,而是关于语言分析器 Lucene有一个专门的解决方案。看 另请参阅,以了解备选方案。无论您使用的是标准Solr查询解析器还是DisMax查询解析

对于我的Solr服务器,一些查询字符串将使用亚洲语言,如中文或日语

对于这样的查询字符串,标准或Demax请求处理程序可以工作吗?我的理解是,标准和Demax处理程序都使用空格标记查询字符串。这对中国人或日本人都不起作用,对吗

在这种情况下,我应该使用什么请求处理程序?如果我需要为这些语言设置自定义请求处理程序,我该怎么做


谢谢。

这不是关于请求处理程序,而是关于语言分析器

Lucene有一个专门的解决方案。看


另请参阅,以了解备选方案。

无论您使用的是标准Solr查询解析器还是DisMax查询解析器,您的查询都将根据所查询字段的分析器进行解析

因此,在本例中,正如Mauricio所说,问题是如何将文本字符串分析为标记

对于中文和韩文,有CJK,它执行基本的N-Gram分析,将文本分解为字节对。这不是从相关性和索引大小方面进行分析的最佳方法,但它确实有效

对于日本人,我强烈推荐Solr和Lucene 3.6.0中新的Kuromoji形态分析器。它使用一个字典和一些其他统计数据来标记为实数。这可以让你做各种各样的真正优秀的品质

目前文档很少,所以请查看这些链接

  • 我在2012年4月20日的herokujp会议上的演讲,主题是全文搜索,重点是分析日语

有关日语分析的更多信息,请参见我的评论:)