为什么gensim'；的简单预处理Python标记器似乎跳过了；我"；代币_Python_Nlp_Tokenize_Gensim

为什么gensim'；的简单预处理Python标记器似乎跳过了；我"；代币

python nlp

为什么gensim'；的简单预处理Python标记器似乎跳过了；我"；代币,python,nlp,tokenize,gensim,Python,Nlp,Tokenize,Gensim,结果是： list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True)) 这正常吗？它有没有漏掉什么单词？我应该使用另一个标记器吗奖金问题： “deacc=True”参数是什么意思？正如@user2357112在他们的评论中提到的，这是simple_preprocess（）设计行为的一部分，根据its，丢弃任何小于min_len=2字符的标记您的“奖金问题”也在同一文档中得到了回答： de

结果是：

list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))

这正常吗？它有没有漏掉什么单词？我应该使用另一个标记器吗

奖金问题：

“deacc=True”参数是什么意思？

正如@user2357112在他们的评论中提到的，这是

simple_preprocess（）

设计行为的一部分，根据its，丢弃任何小于

min_len=2

字符的标记

您的“奖金问题”也在同一文档中得到了回答：

deacc（bool，可选）–使用删除标记中的重音符号

（

deaccent（）

函数是另一个实用函数，记录在链接中，它完全按照名称和文档的建议执行：从字母中删除重音符号，例如，

'e'

变成了

'e'

）

正如@user2357112支持monica在注释中提到的那样，这是

simple_preprocess（）

的设计行为的一部分，根据its丢弃任何短于

min_len=2

字符的标记

您的“奖金问题”也在同一文档中得到了回答：

deacc（bool，可选）–使用删除标记中的重音符号

（

deaccent（）

函数是另一个实用函数，在链接中有文档记录，它完全按照名称和文档的建议：从字母中删除重音符号，例如，

'é'

变成了

'e'

）

这在中进行了解释，您应该养成阅读的习惯。谢谢，这是min_len参数，默认设置为2，很好，非常感谢！这在中进行了解释，你应该养成阅读的习惯。谢谢，所以min_len参数默认设置为2，很好，非常感谢！

['you', 'he', 'she', 'it', 'we', 'you', 'they']