Machine learning 如何推导二元分类问题中的主要影响因素

Machine learning 如何推导二元分类问题中的主要影响因素,machine-learning,classification,data-science,decision-tree,feature-selection,Machine Learning,Classification,Data Science,Decision Tree,Feature Selection,我有一个二进制分类问题,大约有30个特性和一个最终的通过/失败标签。我首先训练了一个分类器,使其能够预测新实例是通过还是失败,但现在我想获得更深入的理解 我怎样才能根据这些项目的特征得出它们通过或失败的原因分析?理想情况下,我希望能够通过与每个因素相关联的权重来显示最大的影响因素。更复杂的是,我的特征在统计上并不一定相互独立。我应该研究什么样的方法,什么样的关键字将为我指明正确的方向 一些初步想法:使用决策树分类器(ID3或CART)并查看树顶部的顶部因素。我不确定这种方法会有多强,而且目前还不

我有一个二进制分类问题,大约有30个特性和一个最终的通过/失败标签。我首先训练了一个分类器,使其能够预测新实例是通过还是失败,但现在我想获得更深入的理解

我怎样才能根据这些项目的特征得出它们通过或失败的原因分析?理想情况下,我希望能够通过与每个因素相关联的权重来显示最大的影响因素。更复杂的是,我的特征在统计上并不一定相互独立。我应该研究什么样的方法,什么样的关键字将为我指明正确的方向


一些初步想法:使用决策树分类器(ID3或CART)并查看树顶部的顶部因素。我不确定这种方法会有多强,而且目前还不清楚如何分配每一个因素的重要性(一个只会得到一个有序的列表)。

< P>如果我正确地理解了你的目标,你可能想考虑一个。随机森林的优势在于,通过算法的工作方式,自然地为特征提供了重要性

在Python的scikit learn中,查看
sklearn.employee.RandomForestClassifier()
feature\u importances\u
将返回我相信您要查找的“权重”。查看中的示例


或者,您可以使用R的软件包。构建模型后,您可以使用
importance()
提取特征重要性值。

Hello@adrix,您使用哪个库来开发模型?我可以在任何python或R中工作:scikit learn、MLLib、Pytork等。不过,我最初一直在scikit learn中工作