Internationalization Lucene/Solr：中文或日文查询字符串使用什么请求处理程序？_Internationalization_Solr_Lucene_Full Text Search

Internationalization Lucene/Solr：中文或日文查询字符串使用什么请求处理程序？

internationalization solr lucene

Internationalization Lucene/Solr：中文或日文查询字符串使用什么请求处理程序？,internationalization,solr,lucene,full-text-search,Internationalization,Solr,Lucene,Full Text Search,对于我的Solr服务器，一些查询字符串将使用亚洲语言，如中文或日语对于这样的查询字符串，标准或Demax请求处理程序可以工作吗？我的理解是，标准和Demax处理程序都使用空格标记查询字符串。这对中国人或日本人都不起作用，对吗在这种情况下，我应该使用什么请求处理程序？如果我需要为这些语言设置自定义请求处理程序，我该怎么做谢谢。这不是关于请求处理程序，而是关于语言分析器 Lucene有一个专门的解决方案。看另请参阅，以了解备选方案。无论您使用的是标准Solr查询解析器还是DisMax查询解析

对于我的Solr服务器，一些查询字符串将使用亚洲语言，如中文或日语

对于这样的查询字符串，标准或Demax请求处理程序可以工作吗？我的理解是，标准和Demax处理程序都使用空格标记查询字符串。这对中国人或日本人都不起作用，对吗

在这种情况下，我应该使用什么请求处理程序？如果我需要为这些语言设置自定义请求处理程序，我该怎么做

谢谢。

这不是关于请求处理程序，而是关于语言分析器

Lucene有一个专门的解决方案。看

另请参阅，以了解备选方案。

无论您使用的是标准Solr查询解析器还是DisMax查询解析器，您的查询都将根据所查询字段的分析器进行解析

因此，在本例中，正如Mauricio所说，问题是如何将文本字符串分析为标记

对于中文和韩文，有CJK，它执行基本的N-Gram分析，将文本分解为字节对。这不是从相关性和索引大小方面进行分析的最佳方法，但它确实有效

对于日本人，我强烈推荐Solr和Lucene 3.6.0中新的Kuromoji形态分析器。它使用一个字典和一些其他统计数据来标记为实数。这可以让你做各种各样的真正优秀的品质

目前文档很少，所以请查看这些链接

我在2012年4月20日的herokujp会议上的演讲，主题是全文搜索，重点是分析日语

有关日语分析的更多信息，请参见我的评论：）