Lucene：如何将StandardTokenizer与我自己的Tokenizer结合使用_Lucene_Tokenize

Lucene：如何将StandardTokenizer与我自己的Tokenizer结合使用

lucene

Lucene：如何将StandardTokenizer与我自己的Tokenizer结合使用,lucene,tokenize,Lucene,Tokenize,我正在构建一个标记器，它将获取文本并在空白处拆分，并添加句子和段落标记（），但除了运行这个，我还希望能够运行StandardTokenizer（和StandardFilter），以便我能够更智能地标记单词。这里我有一个类似的例子如果我先运行StandardTokenizer（可能还有StandardFilter），那么我会得到更智能的标记，但我没有任何标点符号/空格/大写字母作为句子/段落检测的基础如果我首先使用我的标记器，那么我能够为句子和段落包含必要的标记，但我无法从StandardT

我正在构建一个标记器，它将获取文本并在空白处拆分，并添加句子和段落标记（），但除了运行这个，我还希望能够运行StandardTokenizer（和StandardFilter），以便我能够更智能地标记单词。这里我有一个类似的例子

如果我先运行StandardTokenizer（可能还有StandardFilter），那么我会得到更智能的标记，但我没有任何标点符号/空格/大写字母作为句子/段落检测的基础
如果我首先使用我的标记器，那么我能够为句子和段落包含必要的标记，但我无法从StandardTokenizer的智能标记中获益，当然也无法从StandardFilter中获益，后者要求已经运行StandardTokenizer

我应该使用什么模式来解决这个问题？实际上，我可能只是想用句子和段落标记来扩充StandardTokenizer的标记流。尽管更一般地说，我可能希望将句子/段落标记器与任何其他标记器一起使用。

您实际上可以更改StandardTokenizer的语法，并根据您的自定义需求生成标记器。这就是我在

中所做的，您实际上可以更改StandardTokenizer的语法，并为您的自定义需求生成标记器。这就是我当时所做的