Nlp 在python中使用gensim预处理数据时，如何保留数字？_Nlp_Gensim_Preprocessor_Lda_Latent Semantic Analysis

Nlp 在python中使用gensim预处理数据时，如何保留数字？

nlp

Nlp 在python中使用gensim预处理数据时，如何保留数字？,nlp,gensim,preprocessor,lda,latent-semantic-analysis,Nlp,Gensim,Preprocessor,Lda,Latent Semantic Analysis,我使用gensim.utils.simple_preprocess（str（句子）创建了一个用于主题建模的单词词典。不过，这也在过滤重要的数字（众议院决议、账单号等）这是我真正需要的。我是如何克服这一点的？可能是通过将数字替换为它们的单词形式。但是，我该怎么做呢？您不必使用simple\u preprocess（）-它做的不多，它不是那么可配置或复杂，通常其他Gensim算法只需要标记列表因此，请选择您自己的标记化—在某些情况下，在源数据上进行标记化，可以像在空格上执行.split（）一样简单

我使用gensim.utils.simple_preprocess（str（句子）创建了一个用于主题建模的单词词典。不过，这也在过滤重要的数字（众议院决议、账单号等）这是我真正需要的。我是如何克服这一点的？可能是通过将数字替换为它们的单词形式。但是，我该怎么做呢？

您不必使用

simple\u preprocess（）

-它做的不多，它不是那么可配置或复杂，通常其他Gensim算法只需要标记列表

因此，请选择您自己的标记化—在某些情况下，在源数据上进行标记化，可以像在空格上执行

.split（）

一样简单

如果您想了解

simple_preprocess（）

作为一个模型所做的工作，您可以在以下位置查看其Python源代码：