Java apache lucene 4的自定义标记器
我有一个标记文本(分句和分词)。并将基于此结构创建ApacheLucene索引。扩展或替换standart标记器以使用自定义标记的最简单方法是什么。我在看StandardTokenizerImpl,但看起来非常复杂。可能还有其他方法吗?StandardTokenizerImpl很复杂,因为它是从JFlex语法生成的 如果您想要实现自己的标记器,那么您所需要做的就是扩展该类Java apache lucene 4的自定义标记器,java,apache,lucene,tokenize,Java,Apache,Lucene,Tokenize,我有一个标记文本(分句和分词)。并将基于此结构创建ApacheLucene索引。扩展或替换standart标记器以使用自定义标记的最简单方法是什么。我在看StandardTokenizerImpl,但看起来非常复杂。可能还有其他方法吗?StandardTokenizerImpl很复杂,因为它是从JFlex语法生成的 如果您想要实现自己的标记器,那么您所需要做的就是扩展该类 例如,是一个简单的标记器,它在空白处分割标记。它不满足索引句子的要求。
例如,是一个简单的标记器,它在空白处分割标记。它不满足索引句子的要求。