Python 文本分类的interpert随机森林模型_Python_Python 2.7_Scikit Learn_Nltk

Python 文本分类的interpert随机森林模型

python python-2.7 scikit-learn

Python 文本分类的interpert随机森林模型,python,python-2.7,scikit-learn,nltk,Python,Python 2.7,Scikit Learn,Nltk,我有一个文本数据集，我在其中手动将每个记录分类为两个可能的类之一。我在语料库上创建了一个TFIDF，sans English stopwords，训练/测试了一个随机森林分类器，评估了模型，并将模型应用于更大的文本语料库。到目前为止一切都很好，但如何了解更多关于我的模型的信息，即，如何了解哪些词对模型“重要”？经过培训的RF应该有一个属性功能\u重要性。我认为您必须使用oob_score=True（在构造函数中）来训练模型。要素重要性将告诉您哪些要素（数据矩阵列）具有影响力。要获取单词，请返回t

我有一个文本数据集，我在其中手动将每个记录分类为两个可能的类之一。我在语料库上创建了一个TFIDF，sans English stopwords，训练/测试了一个随机森林分类器，评估了模型，并将模型应用于更大的文本语料库。到目前为止一切都很好，但如何了解更多关于我的模型的信息，即，如何了解哪些词对模型“重要”？

经过培训的RF应该有一个属性

功能\u重要性

。我认为您必须使用

oob_score=True

（在构造函数中）来训练模型。要素重要性将告诉您哪些要素（数据矩阵列）具有影响力。要获取单词，请返回tfidf矢量器，并获取其

词汇表

属性（注意后面的下划线），该属性是从单词到列索引的dict

有关词汇表属性的解释，请参阅本文：

有意义。非常感谢！