Python 文本分类的interpert随机森林模型

Python 文本分类的interpert随机森林模型,python,python-2.7,scikit-learn,nltk,Python,Python 2.7,Scikit Learn,Nltk,我有一个文本数据集,我在其中手动将每个记录分类为两个可能的类之一。我在语料库上创建了一个TFIDF,sans English stopwords,训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。到目前为止一切都很好,但如何了解更多关于我的模型的信息,即,如何了解哪些词对模型“重要”?经过培训的RF应该有一个属性功能\u重要性。我认为您必须使用oob_score=True(在构造函数中)来训练模型。要素重要性将告诉您哪些要素(数据矩阵列)具有影响力。要获取单词,请返回t

我有一个文本数据集,我在其中手动将每个记录分类为两个可能的类之一。我在语料库上创建了一个TFIDF,sans English stopwords,训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。到目前为止一切都很好,但如何了解更多关于我的模型的信息,即,如何了解哪些词对模型“重要”?

经过培训的RF应该有一个属性
功能\u重要性
。我认为您必须使用
oob_score=True
(在构造函数中)来训练模型。要素重要性将告诉您哪些要素(数据矩阵列)具有影响力。要获取单词,请返回tfidf矢量器,并获取其
词汇表
属性(注意后面的下划线),该属性是从单词到列索引的dict


有关词汇表属性的解释,请参阅本文:

有意义。非常感谢!