为什么gensim';的简单预处理Python标记器似乎跳过了;我";代币

为什么gensim';的简单预处理Python标记器似乎跳过了;我";代币,python,nlp,tokenize,gensim,Python,Nlp,Tokenize,Gensim,结果是: list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True)) 这正常吗?它有没有漏掉什么单词?我应该使用另一个标记器吗 奖金问题: “deacc=True”参数是什么意思?正如@user2357112在他们的评论中提到的,这是simple_preprocess()设计行为的一部分,根据its,丢弃任何小于min_len=2字符的标记 您的“奖金问题”也在同一文档中得到了回答: de

结果是:

list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))
这正常吗?它有没有漏掉什么单词?我应该使用另一个标记器吗

奖金问题:
“deacc=True”参数是什么意思?

正如@user2357112在他们的评论中提到的,这是
simple_preprocess()
设计行为的一部分,根据its,丢弃任何小于
min_len=2
字符的标记

您的“奖金问题”也在同一文档中得到了回答:

  • deacc(bool,可选)–使用删除标记中的重音符号

deaccent()
函数是另一个实用函数,记录在链接中,它完全按照名称和文档的建议执行:从字母中删除重音符号,例如,
'e'
变成了
'e'

正如@user2357112支持monica在注释中提到的那样,这是
simple_preprocess()
的设计行为的一部分,根据its丢弃任何短于
min_len=2
字符的标记

您的“奖金问题”也在同一文档中得到了回答:

  • deacc(bool,可选)–使用删除标记中的重音符号

deaccent()
函数是另一个实用函数,在链接中有文档记录,它完全按照名称和文档的建议:从字母中删除重音符号,例如,
'é'
变成了
'e'

这在中进行了解释,您应该养成阅读的习惯。谢谢,这是min_len参数,默认设置为2,很好,非常感谢!这在中进行了解释,你应该养成阅读的习惯。谢谢,所以min_len参数默认设置为2,很好,非常感谢!
['you', 'he', 'she', 'it', 'we', 'you', 'they']