使用类属性Python scikit learn查找前n个相关特征（基于Pearson cofficient）_Python_Pandas_Scikit Learn

使用类属性Python scikit learn查找前n个相关特征（基于Pearson cofficient）

python pandas scikit-learn

使用类属性Python scikit learn查找前n个相关特征（基于Pearson cofficient）,python,pandas,scikit-learn,Python,Pandas,Scikit Learn,我对Python和机器学习相当陌生我有一个具有多个功能的数据集。我想使用Pearson系数找到与class属性相关的前n个属性/特征。我该怎么做呢以下是我的数据集结构：类别属性col1 col2 col3。。。coln根据您在问题中发布的详细信息判断，我假设这是一个分类问题，而不是回归问题。在这种情况下，使用皮尔逊系数作为相关性度量是不可行的您可以获得最佳特征数量及其相应的特征重要性。基于以下内容检查此代码样本输出：或者，您可以使用指定自定义评分函数，并使用.scores_u属性获取

我对Python和机器学习相当陌生

我有一个具有多个功能的数据集。我想使用Pearson系数找到与class属性相关的前n个属性/特征。我该怎么做呢

以下是我的数据集结构：

类别属性col1 col2 col3。。。coln

根据您在问题中发布的详细信息判断，我假设这是一个分类问题，而不是回归问题。在这种情况下，使用皮尔逊系数作为相关性度量是不可行的

您可以获得最佳特征数量及其相应的特征重要性。基于以下内容检查此代码

样本输出：

或者，您可以使用指定自定义评分函数，并使用.scores_u属性获取每个功能的评分

关于Scikit学习中的功能选择

使用多种方法及其示例

此外，您还可以查看更多此类API

import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.cross_validation import StratifiedKFold
from sklearn.feature_selection import RFECV
svc = SVC(kernel="linear")
rfecv = RFECV(estimator=svc, step=1, cv=StratifiedKFold(labels, 50),
      scoring='precision')
rfecv.fit(features, labels)
print("Optimal number of features : %d" % rfecv.n_features_)
print rfecv.support_
features=features[:,rfecv.support_]
# Plot number of features VS. cross-validation scores
plt.figure()
plt.xlabel("Number of features selected")
plt.ylabel("Cross validation score (nb of correct classifications)")
plt.plot(range(1, len(rfecv.grid_scores_) + 1), rfecv.grid_scores_)
plt.show()