Java 什么lucene分析器可以用来处理日语文本?

Java 什么lucene分析器可以用来处理日语文本?,java,internationalization,lucene,analyzer,Java,Internationalization,Lucene,Analyzer,哪个lucene分析器可以正确处理日语文本?它应该能够处理汉字、平假名、片假名、罗马字以及它们的任意组合。您可能应该看看Lucene contrib区域中的软件包。有一个专门用于处理中文、日文和韩文的分析器和标记器。我在为自己的目的进行搜索时发现: 他们的例子看起来相当不错,但我想这是一种需要广泛测试的东西。我还担心他们的向后兼容性策略(或者说,完全缺乏向后兼容性)。CJK Analyzer似乎是一种简单的搜索方式,根据以往的经验,它似乎没有提供非常相关的搜索结果。我需要做些什么来让CJK An

哪个lucene分析器可以正确处理日语文本?它应该能够处理汉字、平假名、片假名、罗马字以及它们的任意组合。

您可能应该看看Lucene contrib区域中的软件包。有一个专门用于处理中文、日文和韩文的分析器和标记器。

我在为自己的目的进行搜索时发现:


他们的例子看起来相当不错,但我想这是一种需要广泛测试的东西。我还担心他们的向后兼容性策略(或者说,完全缺乏向后兼容性)。

CJK Analyzer似乎是一种简单的搜索方式,根据以往的经验,它似乎没有提供非常相关的搜索结果。我需要做些什么来让CJK Analyzer像修改一些权重之类的工作?谢谢,我本人从未使用过CJK分析仪,所以不能说。你可以试着在Lucene邮件列表(用户列表)上寻求更具体的帮助-列表上有对Lucene非常有经验的人。我们没有使用Lucene gosen,但我们使用了gosen。所以我接受了这个答案(因为它已经足够接近了,而且这个项目看起来确实很有趣)。CJK做了一个非常简单的搜索,它只匹配字符而不是单词,不像gosen(它使用字典进行正确的解析)。