Lucene 标记化器是否删除空白?
Lucene的标准标记器是否删除空格和空行?我一直在阅读API(),但没有指定它。我不知道,也许代币化者默认会这么做。是的。Lucene标记化程序从文档中获取不包含空格的可索引术语。不过,它们会在原始文档中保留标记的偏移量 这些记录在以下文件中:Lucene 标记化器是否删除空白?,lucene,tokenize,stringtokenizer,Lucene,Tokenize,Stringtokenizer,Lucene的标准标记器是否删除空格和空行?我一直在阅读API(),但没有指定它。我不知道,也许代币化者默认会这么做。是的。Lucene标记化程序从文档中获取不包含空格的可索引术语。不过,它们会在原始文档中保留标记的偏移量 这些记录在以下文件中: 在标点符号处拆分单词,删除标点符号 (空格是标点符号。)空行也被视为空格?@Kits89:yep,任何空格都是。
- 在标点符号处拆分单词,删除标点符号
(空格是标点符号。)空行也被视为空格?@Kits89:yep,任何空格都是。