Scikit learn 是否可以在干扰中从TFIDFvectorier中删除停止字列表

Scikit learn 是否可以在干扰中从TFIDFvectorier中删除停止字列表,scikit-learn,tfidfvectorizer,Scikit Learn,Tfidfvectorizer,我有一个相当大的文本语料库,sklearn创建了2ml(不常见)停止词,我需要将其存储到磁盘上吗?我可以删除停止词列表吗?如果要从词汇表中删除停止词,可以将停止词参数设置为无 另一方面,如果要删除频率较低的单词,请使用TfidfVectorizer中的min_dfparam min_df的默认值为0,如果将该值设置为0.2左右,词汇表的大小将大大减少 你到底想干什么?这个问题对我来说不是很清楚,我可以在vectorizer.transform(X)之前设置vectorizer.stopwords

我有一个相当大的文本语料库,sklearn创建了2ml(不常见)停止词,我需要将其存储到磁盘上吗?我可以删除停止词列表吗?

如果要从词汇表中删除停止词,可以将
停止词
参数设置为

另一方面,如果要删除频率较低的单词,请使用
TfidfVectorizer
中的
min_df
param


min_df
的默认值为0,如果将该值设置为0.2左右,词汇表的大小将大大减少

你到底想干什么?这个问题对我来说不是很清楚,我可以在vectorizer.transform(X)之前设置vectorizer.stopwords=[]吗?