Utf 8 Lucene：如何在StandardAnalyzer中保留立陶宛语符号？_Utf 8_Lucene_Stop Words

Utf 8 Lucene：如何在StandardAnalyzer中保留立陶宛语符号？

utf-8 lucene

Utf 8 Lucene：如何在StandardAnalyzer中保留立陶宛语符号？,utf-8,lucene,stop-words,Utf 8,Lucene,Stop Words,我已经用Lucene（4.3.0版）完成了自己的非必要数据分析器，并停止了单词删除一切正常，但我的语言是立陶宛语，所以我想保留立陶宛语符号：“ĄĘĖĮŪŽąęėŵž”。主要问题是立陶宛语没有自己的分析器。。目前，单词被截断（没有符号）。有没有关于如何覆盖格式方法/保留这些符号的建议？我不需要词干分析工具。我的坏。。是的StandardAnalyzer不是这里的问题，我读取的数据是错误的unicode格式（UTF-8），它是用Windows-1257编写的。这就产生了不必要的符号，这些符号

我已经用Lucene（4.3.0版）完成了自己的非必要数据分析器，并停止了单词删除

一切正常，但我的语言是立陶宛语，所以我想保留立陶宛语符号：“ĄĘĖĮŪŽąęėŵž”。主要问题是立陶宛语没有自己的分析器。。目前，单词被截断（没有符号）。

有没有关于如何覆盖格式方法/保留这些符号的建议？我不需要词干分析工具。

我的坏。。是的

StandardAnalyzer

不是这里的问题，我读取的数据是错误的unicode格式（

UTF-8

），它是用

Windows-1257

编写的。这就产生了不必要的符号，这些符号被解释为垃圾。因此，将其更改为正确的unicode解决了这个问题：）

StandardAnalyzer

不太可能是这里的问题。它支持多种不同语言的字符集（由指定）。

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43, new CharArraySet(Version.LUCENE_43, stopWords, true));