Lucene 标记化器是否删除空白?

Lucene 标记化器是否删除空白?,lucene,tokenize,stringtokenizer,Lucene,Tokenize,Stringtokenizer,Lucene的标准标记器是否删除空格和空行?我一直在阅读API(),但没有指定它。我不知道,也许代币化者默认会这么做。是的。Lucene标记化程序从文档中获取不包含空格的可索引术语。不过,它们会在原始文档中保留标记的偏移量 这些记录在以下文件中: 在标点符号处拆分单词,删除标点符号 (空格是标点符号。)空行也被视为空格?@Kits89:yep,任何空格都是。

Lucene的标准标记器是否删除空格和空行?我一直在阅读API(),但没有指定它。我不知道,也许代币化者默认会这么做。

是的。Lucene标记化程序从文档中获取不包含空格的可索引术语。不过,它们会在原始文档中保留标记的偏移量

这些记录在以下文件中:

  • 在标点符号处拆分单词,删除标点符号

(空格是标点符号。)

空行也被视为空格?@Kits89:yep,任何空格都是。