Scikit learn SKLERN TTFIDFvector停止字__Scikit Learn_Stop Words_Countvectorizer_Tfidfvectorizer

Scikit learn SKLERN TTFIDFvector停止字_

scikit-learn

Scikit learn SKLERN TTFIDFvector停止字_,scikit-learn,stop-words,countvectorizer,tfidfvectorizer,Scikit Learn,Stop Words,Countvectorizer,Tfidfvectorizer,有没有办法获取sklearn的TtfidfVectorizer（而不是stopwords）的stopwords属性的tf和idf 它们已经计算过了，所以模型应该有这些值，但是有人使用过它们吗？如果不是的话，我想我必须破解内部代码并自己获取，对吗 [更新] 对于任何可能最终会遇到这个问题的人，作为更新，我最终要做的是破解sklearn/feature\u extraction/text.py，并将单词和值导出为类CountVectorizer的元组，而不仅仅是单词。这是您需要重做的方法：但您能解释

有没有办法获取sklearn的TtfidfVectorizer（而不是stopwords）的stopwords属性的tf和idf

它们已经计算过了，所以模型应该有这些值，但是有人使用过它们吗？如果不是的话，我想我必须破解内部代码并自己获取，对吗

[更新]

对于任何可能最终会遇到这个问题的人，作为更新，我最终要做的是破解

sklearn/feature\u extraction/text.py

，并将单词和值导出为类CountVectorizer的元组，而不仅仅是单词。

这是您需要重做的方法：但您能解释一下为什么要这样做吗？您可以相应地设置

max_df

，

min_df

，以不删除这些单词。谢谢Vivek的回复。是的，我读过text.py，你对函数的理解是正确的。我需要这样做的原因不是为了获得最好的算法上可能的功能，而是通过允许我的专家用户添加被忽略的文本功能（比如前20个stopwords），在上面引入人工监督。