Scikit learn 我可以从CountVectorizer手动添加和删除功能吗?

Scikit learn 我可以从CountVectorizer手动添加和删除功能吗?,scikit-learn,feature-extraction,feature-selection,naivebayes,countvectorizer,Scikit Learn,Feature Extraction,Feature Selection,Naivebayes,Countvectorizer,我正在做文本分类,并使用带有CountVectorizer的朴素贝叶斯。我正在寻找手动添加和删除功能的方法。也许我可以通过stop_words删除功能(这是最好的方法吗?),但我找不到添加功能的方法。如果我使用“词汇表”参数,那么除了词汇表中存在的特征外,不会从文本中提取任何特征。这是一个问题是的,使用停止词删除功能是保持结果一致的最佳方法。您也可以进行遍历并手动删除数据,但这与使用停止字删除数据相同。要向sklearn中的stop_单词添加元素,请执行以下操作 from sklearn.fea

我正在做文本分类,并使用带有CountVectorizer的朴素贝叶斯。我正在寻找手动添加和删除功能的方法。也许我可以通过stop_words删除功能(这是最好的方法吗?),但我找不到添加功能的方法。如果我使用“词汇表”参数,那么除了词汇表中存在的特征外,不会从文本中提取任何特征。这是一个问题

是的,使用停止词删除功能是保持结果一致的最佳方法。您也可以进行遍历并手动删除数据,但这与使用停止字删除数据相同。要向sklearn中的stop_单词添加元素,请执行以下操作

from sklearn.feature_extraction import text 
stop_words = text.ENGLISH_STOP_WORDS.union(additional_stop_words)

为什么不将这些额外功能与cout矢量器的输出连接起来(例如使用
np.hstack