Java 如何在Lucene索引中搜索俄语文本?
我不明白我错在哪里。 我的代码,其中“/home/test/03m8894--20070213134234.txt”-包含英文文本的文件,以及“/home/test/01--20061121103506.txt”-包含俄文文本的文件。 这两个文件都用UTF-8编码。 程序执行的结果: 1. 0 Ie程序只查找忽略的英语和俄语文本。 虽然如果你这样做了Java 如何在Lucene索引中搜索俄语文本?,java,lucene,Java,Lucene,我不明白我错在哪里。 我的代码,其中“/home/test/03m8894--20070213134234.txt”-包含英文文本的文件,以及“/home/test/01--20061121103506.txt”-包含俄文文本的文件。 这两个文件都用UTF-8编码。 程序执行的结果: 1. 0 Ie程序只查找忽略的英语和俄语文本。 虽然如果你这样做了 for (int m = 0; m <totalDocs; m + +) { Docum
for (int m = 0; m <totalDocs; m + +) {
Document thisDoc = reader.document (m);
System.out.print (thisDoc.get ("partnum"));
for(int m=0;m您说过文件是UTF-8编码的,但您使用:
InputStreamReader isr = new InputStreamReader(new FileInputStream(f1[x]));
InputStreamReader isr=新的InputStreamReader(新文件InputStream(f1[x]);
这取决于默认编码,可能不是UTF-8。请尝试:
InputStreamReader isr=新的InputStreamReader(新文件InputStream(f1[x]),“UTF-8”);
这并不重要,因为UTF-8和默认系统中的所有文件以及文件编码都是UTF-8…您能否发布这些文本文件供我们下载,以便我们自己尝试?
InputStreamReader isr = new InputStreamReader(new FileInputStream(f1[x]));
InputStreamReader isr = new InputStreamReader(new FileInputStream(f1[x]), "UTF-8");