Nlp 在python中使用gensim预处理数据时,如何保留数字?
我使用gensim.utils.simple_preprocess(str(句子)创建了一个用于主题建模的单词词典。不过,这也在过滤重要的数字(众议院决议、账单号等)这是我真正需要的。我是如何克服这一点的?可能是通过将数字替换为它们的单词形式。但是,我该怎么做呢?您不必使用Nlp 在python中使用gensim预处理数据时,如何保留数字?,nlp,gensim,preprocessor,lda,latent-semantic-analysis,Nlp,Gensim,Preprocessor,Lda,Latent Semantic Analysis,我使用gensim.utils.simple_preprocess(str(句子)创建了一个用于主题建模的单词词典。不过,这也在过滤重要的数字(众议院决议、账单号等)这是我真正需要的。我是如何克服这一点的?可能是通过将数字替换为它们的单词形式。但是,我该怎么做呢?您不必使用simple\u preprocess()-它做的不多,它不是那么可配置或复杂,通常其他Gensim算法只需要标记列表 因此,请选择您自己的标记化—在某些情况下,在源数据上进行标记化,可以像在空格上执行.split()一样简单
simple\u preprocess()
-它做的不多,它不是那么可配置或复杂,通常其他Gensim算法只需要标记列表
因此,请选择您自己的标记化—在某些情况下,在源数据上进行标记化,可以像在空格上执行.split()
一样简单
如果您想了解simple_preprocess()
作为一个模型所做的工作,您可以在以下位置查看其Python源代码: