Utf 8 Lucene:如何在StandardAnalyzer中保留立陶宛语符号?

Utf 8 Lucene:如何在StandardAnalyzer中保留立陶宛语符号?,utf-8,lucene,stop-words,Utf 8,Lucene,Stop Words,我已经用Lucene(4.3.0版)完成了自己的非必要数据分析器,并停止了单词删除 一切正常,但我的语言是 立陶宛语,所以我想保留立陶宛语符号:“ĄĘĖĮŪŽąęėŵž”。主要问题是立陶宛语没有自己的分析器。。 目前,单词被截断(没有符号)。 有没有关于如何覆盖格式方法/保留这些符号的建议?我不需要词干分析工具。我的坏。。是的StandardAnalyzer不是这里的问题,我读取的数据是错误的unicode格式(UTF-8),它是用Windows-1257编写的。这就产生了不必要的符号,这些符号

我已经用Lucene(4.3.0版)完成了自己的非必要数据分析器,并停止了单词删除

一切正常,但我的语言是 立陶宛语,所以我想保留立陶宛语符号:“ĄĘĖĮŪŽąęėŵž”。主要问题是立陶宛语没有自己的分析器。。 目前,单词被截断(没有符号)。
有没有关于如何覆盖格式方法/保留这些符号的建议?我不需要词干分析工具。

我的坏。。是的
StandardAnalyzer
不是这里的问题,我读取的数据是错误的unicode格式(
UTF-8
),它是用
Windows-1257
编写的。这就产生了不必要的符号,这些符号被解释为垃圾。因此,将其更改为正确的unicode解决了这个问题:)

StandardAnalyzer
不太可能是这里的问题。它支持多种不同语言的字符集(由指定)。
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43, new CharArraySet(Version.LUCENE_43, stopWords, true));