Java Solr中StandardTokenizerFactory和KeywordTokenizerFactory之间的差异?

Java Solr中StandardTokenizerFactory和KeywordTokenizerFactory之间的差异?,java,solr,solrnet,tokenize,Java,Solr,Solrnet,Tokenize,我是Solr的新手。我想知道何时使用StandardTokenizerFactory和关键字TokenizerFactory 我读了ApacheWiki上的文档,但我不明白 有人能解释一下StandardTokenizerFactory和KeywordTokenizerFactory之间的区别吗?StandardTokenizerFactory:- 它在空白处进行标记,并去除字符 文件:- 在标点符号处拆分单词,删除标点符号。 但是,不后跟空格的点被视为 代币。在连字符处拆分单词,除非字符中有数

我是Solr的新手。我想知道何时使用StandardTokenizerFactory关键字TokenizerFactory

我读了ApacheWiki上的文档,但我不明白


有人能解释一下StandardTokenizerFactory和KeywordTokenizerFactory之间的区别吗?

StandardTokenizerFactory:-
它在空白处进行标记,并去除字符

文件:-

在标点符号处拆分单词,删除标点符号。 但是,不后跟空格的点被视为 代币。在连字符处拆分单词,除非字符中有数字 代币在这种情况下,整个令牌被解释为产品 编号,不拆分。识别电子邮件地址和Internet地址 主机名作为一个令牌

将对要搜索字段数据的字段使用此选项

e、 g.-

http://example.com/I-am+example?Text=-Hello
将生成7个令牌(用逗号分隔)-

关键字TokenizerFactory:-

关键字标记器根本不分割输入。
未对字符串执行任何处理,整个字符串被视为单个实体。
这实际上并没有进行任何标记化。它将原始文本作为一个术语返回

主要用于排序或刻面需求,当过滤多个单词并进行排序时,您希望匹配准确的刻面,因为排序不适用于标记化字段

e、 g

将生成单个令牌-

http://example.com/I-am+example?Text=-Hello

StandardTokenizerFactory不会对所有标点符号进行拆分,例如,包含撇号的单词(例如
不能
不会
等)将保留在tact.yup中。如前所述,它不会在所有特殊字符上拆分或剥离所有特殊字符。它有一定的规则。
http://example.com/I-am+example?Text=-Hello
http://example.com/I-am+example?Text=-Hello