Machine learning 如何推导二元分类问题中的主要影响因素_Machine Learning_Classification_Data Science_Decision Tree_Feature Selection

Machine learning 如何推导二元分类问题中的主要影响因素

machine-learning

Machine learning 如何推导二元分类问题中的主要影响因素,machine-learning,classification,data-science,decision-tree,feature-selection,Machine Learning,Classification,Data Science,Decision Tree,Feature Selection,我有一个二进制分类问题，大约有30个特性和一个最终的通过/失败标签。我首先训练了一个分类器，使其能够预测新实例是通过还是失败，但现在我想获得更深入的理解我怎样才能根据这些项目的特征得出它们通过或失败的原因分析？理想情况下，我希望能够通过与每个因素相关联的权重来显示最大的影响因素。更复杂的是，我的特征在统计上并不一定相互独立。我应该研究什么样的方法，什么样的关键字将为我指明正确的方向一些初步想法：使用决策树分类器（ID3或CART）并查看树顶部的顶部因素。我不确定这种方法会有多强，而且目前还不

我有一个二进制分类问题，大约有30个特性和一个最终的通过/失败标签。我首先训练了一个分类器，使其能够预测新实例是通过还是失败，但现在我想获得更深入的理解

我怎样才能根据这些项目的特征得出它们通过或失败的原因分析？理想情况下，我希望能够通过与每个因素相关联的权重来显示最大的影响因素。更复杂的是，我的特征在统计上并不一定相互独立。我应该研究什么样的方法，什么样的关键字将为我指明正确的方向

一些初步想法：使用决策树分类器（ID3或CART）并查看树顶部的顶部因素。我不确定这种方法会有多强，而且目前还不清楚如何分配每一个因素的重要性（一个只会得到一个有序的列表）。

< P>如果我正确地理解了你的目标，你可能想考虑一个。随机森林的优势在于，通过算法的工作方式，自然地为特征提供了重要性

在Python的scikit learn中，查看

sklearn.employee.RandomForestClassifier（）

feature\u importances\u

将返回我相信您要查找的“权重”。查看中的示例

或者，您可以使用R的软件包。构建模型后，您可以使用

importance（）

提取特征重要性值。

Hello@adrix，您使用哪个库来开发模型？我可以在任何python或R中工作：scikit learn、MLLib、Pytork等。不过，我最初一直在scikit learn中工作