Java lucene标准分析器的默认分隔符?
我正在寻找java lucene标准分析器标记输入字符串的所有分隔符 需要知道默认情况下用于标记化的所有分隔符 我知道(从Lucene in Action中)所有不是a-zA-Z的字符或具有变音符号的a-zA-Z变量都被用作分隔符,包括数字。Java lucene标准分析器的默认分隔符?,java,lucene,delimiter,Java,Lucene,Delimiter,我正在寻找java lucene标准分析器标记输入字符串的所有分隔符 需要知道默认情况下用于标记化的所有分隔符 我知道(从Lucene in Action中)所有不是a-zA-Z的字符或具有变音符号的a-zA-Z变量都被用作分隔符,包括数字。 因此,您可能将Mc'Donald拆分为“Mc”“Donald”,您可能将“Web2.0”标记为“Web”,等等。 最好是做一个测试,输入所有类型的字符,然后将结果发布到这里。我知道(从Lucene in Action)所有不是a-zA-Z的字符或具有变
因此,您可能将Mc'Donald拆分为“Mc”“Donald”,您可能将“Web2.0”标记为“Web”,等等。
最好是做一个测试,输入所有类型的字符,然后将结果发布到这里。我知道(从Lucene in Action)所有不是a-zA-Z的字符或具有变音符号的a-zA-Z变量都被用作分隔符,包括数字。
因此,您可能将Mc'Donald拆分为“Mc”“Donald”,您可能将“Web2.0”标记为“Web”,等等。
最好是做一个测试,输入所有类型的字符,然后将结果发布到这里。对不起,我认为这是我所描述的简单分析。StandardAnalyzer更复杂:对不起,我认为它是我所描述的简单分析工具。StandardAnalyzer更为复杂: