Lucene:如何将StandardTokenizer与我自己的Tokenizer结合使用

Lucene:如何将StandardTokenizer与我自己的Tokenizer结合使用,lucene,tokenize,Lucene,Tokenize,我正在构建一个标记器,它将获取文本并在空白处拆分,并添加句子和段落标记(),但除了运行这个,我还希望能够运行StandardTokenizer(和StandardFilter),以便我能够更智能地标记单词。这里我有一个类似的例子 如果我先运行StandardTokenizer(可能还有StandardFilter),那么我会得到更智能的标记,但我没有任何标点符号/空格/大写字母作为句子/段落检测的基础 如果我首先使用我的标记器,那么我能够为句子和段落包含必要的标记,但我无法从StandardT

我正在构建一个标记器,它将获取文本并在空白处拆分,并添加句子和段落标记(),但除了运行这个,我还希望能够运行StandardTokenizer(和StandardFilter),以便我能够更智能地标记单词。这里我有一个类似的例子

  • 如果我先运行StandardTokenizer(可能还有StandardFilter),那么我会得到更智能的标记,但我没有任何标点符号/空格/大写字母作为句子/段落检测的基础
  • 如果我首先使用我的标记器,那么我能够为句子和段落包含必要的标记,但我无法从StandardTokenizer的智能标记中获益,当然也无法从StandardFilter中获益,后者要求已经运行StandardTokenizer

我应该使用什么模式来解决这个问题?实际上,我可能只是想用句子和段落标记来扩充StandardTokenizer的标记流。尽管更一般地说,我可能希望将句子/段落标记器与任何其他标记器一起使用。

您实际上可以更改StandardTokenizer的语法,并根据您的自定义需求生成标记器。这就是我在

中所做的,您实际上可以更改StandardTokenizer的语法,并为您的自定义需求生成标记器。这就是我当时所做的