Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/ssh/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 在python中使用gensim预处理数据时,如何保留数字?_Nlp_Gensim_Preprocessor_Lda_Latent Semantic Analysis - Fatal编程技术网

Nlp 在python中使用gensim预处理数据时,如何保留数字?

Nlp 在python中使用gensim预处理数据时,如何保留数字?,nlp,gensim,preprocessor,lda,latent-semantic-analysis,Nlp,Gensim,Preprocessor,Lda,Latent Semantic Analysis,我使用gensim.utils.simple_preprocess(str(句子)创建了一个用于主题建模的单词词典。不过,这也在过滤重要的数字(众议院决议、账单号等)这是我真正需要的。我是如何克服这一点的?可能是通过将数字替换为它们的单词形式。但是,我该怎么做呢?您不必使用simple\u preprocess()-它做的不多,它不是那么可配置或复杂,通常其他Gensim算法只需要标记列表 因此,请选择您自己的标记化—在某些情况下,在源数据上进行标记化,可以像在空格上执行.split()一样简单

我使用gensim.utils.simple_preprocess(str(句子)创建了一个用于主题建模的单词词典。不过,这也在过滤重要的数字(众议院决议、账单号等)这是我真正需要的。我是如何克服这一点的?可能是通过将数字替换为它们的单词形式。但是,我该怎么做呢?

您不必使用
simple\u preprocess()
-它做的不多,它不是那么可配置或复杂,通常其他Gensim算法只需要标记列表

因此,请选择您自己的标记化—在某些情况下,在源数据上进行标记化,可以像在空格上执行
.split()
一样简单

如果您想了解
simple_preprocess()
作为一个模型所做的工作,您可以在以下位置查看其Python源代码: