Scikit learn SKLERN TTFIDFvector停止字_

Scikit learn SKLERN TTFIDFvector停止字_,scikit-learn,stop-words,countvectorizer,tfidfvectorizer,Scikit Learn,Stop Words,Countvectorizer,Tfidfvectorizer,有没有办法获取sklearn的TtfidfVectorizer(而不是stopwords)的stopwords属性的tf和idf 它们已经计算过了,所以模型应该有这些值,但是有人使用过它们吗?如果不是的话,我想我必须破解内部代码并自己获取,对吗 [更新] 对于任何可能最终会遇到这个问题的人,作为更新,我最终要做的是破解sklearn/feature\u extraction/text.py,并将单词和值导出为类CountVectorizer的元组,而不仅仅是单词。这是您需要重做的方法:但您能解释

有没有办法获取sklearn的TtfidfVectorizer(而不是stopwords)的stopwords属性的tf和idf

它们已经计算过了,所以模型应该有这些值,但是有人使用过它们吗?如果不是的话,我想我必须破解内部代码并自己获取,对吗

[更新]


对于任何可能最终会遇到这个问题的人,作为更新,我最终要做的是破解
sklearn/feature\u extraction/text.py
,并将单词和值导出为类CountVectorizer的元组,而不仅仅是单词。

这是您需要重做的方法:但您能解释一下为什么要这样做吗?您可以相应地设置
max_df
min_df
,以不删除这些单词。谢谢Vivek的回复。是的,我读过text.py,你对函数的理解是正确的。我需要这样做的原因不是为了获得最好的算法上可能的功能,而是通过允许我的专家用户添加被忽略的文本功能(比如前20个stopwords),在上面引入人工监督。