Scikit learn SKTF-IDF要放弃号码吗?

Scikit learn SKTF-IDF要放弃号码吗?,scikit-learn,tf-idf,Scikit Learn,Tf Idf,我在做文本分析,我想忽略那些只是数字的单词。从文本“This is 000 Sparta!”中,只应使用“This”、“is”和“Sparta”三个词。有办法做到这一点吗?如何?TFIDFvectorier的默认令牌模式是u'(?u)\\b\\w\\w+\\b',它与至少有两个单词字符的单词相匹配,即[a-zA-Z0-9\/code>;您可以根据需要修改标记模式,例如,regex(?ui)\\b\\w*[a-z]+\\w*\\b确保它与单词匹配,但至少包含一个字母: from sklearn.f

我在做文本分析,我想忽略那些只是数字的单词。从文本“This is 000 Sparta!”中,只应使用“This”、“is”和“Sparta”三个词。有办法做到这一点吗?如何?

TFIDFvectorier的默认令牌模式是
u'(?u)\\b\\w\\w+\\b'
,它与至少有两个单词字符的单词相匹配,即
[a-zA-Z0-9\/code>;您可以根据需要修改标记模式,例如,regex
(?ui)\\b\\w*[a-z]+\\w*\\b
确保它与单词匹配,但至少包含一个字母:

from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer(token_pattern=u'(?ui)\\b\\w*[a-z]+\\w*\\b')
​
text = ["This is 000 Sparta!"]
tfidf_matrix =  tf.fit_transform(text)
feature_names = tf.get_feature_names() 
​
print(feature_names)
[u'is', u'sparta', u'this']

看看它是如何在官方文档中实现的。 所有数字都被视为一个特征#数字