Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/340.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用类属性Python scikit learn查找前n个相关特征(基于Pearson cofficient)_Python_Pandas_Scikit Learn - Fatal编程技术网

使用类属性Python scikit learn查找前n个相关特征(基于Pearson cofficient)

使用类属性Python scikit learn查找前n个相关特征(基于Pearson cofficient),python,pandas,scikit-learn,Python,Pandas,Scikit Learn,我对Python和机器学习相当陌生 我有一个具有多个功能的数据集。我想使用Pearson系数找到与class属性相关的前n个属性/特征。我该怎么做呢 以下是我的数据集结构: 类别属性col1 col2 col3。。。coln根据您在问题中发布的详细信息判断,我假设这是一个分类问题,而不是回归问题。在这种情况下,使用皮尔逊系数作为相关性度量是不可行的 您可以获得最佳特征数量及其相应的特征重要性。基于以下内容检查此代码 样本输出: 或者,您可以使用指定自定义评分函数,并使用.scores_u属性获取

我对Python和机器学习相当陌生

我有一个具有多个功能的数据集。我想使用Pearson系数找到与class属性相关的前n个属性/特征。我该怎么做呢

以下是我的数据集结构:
类别属性col1 col2 col3。。。coln

根据您在问题中发布的详细信息判断,我假设这是一个分类问题,而不是回归问题。在这种情况下,使用皮尔逊系数作为相关性度量是不可行的

您可以获得最佳特征数量及其相应的特征重要性。基于以下内容检查此代码

样本输出:

或者,您可以使用指定自定义评分函数,并使用.scores_u属性获取每个功能的评分

关于Scikit学习中的功能选择

使用多种方法及其示例

此外,您还可以查看更多此类API

import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.cross_validation import StratifiedKFold
from sklearn.feature_selection import RFECV
svc = SVC(kernel="linear")
rfecv = RFECV(estimator=svc, step=1, cv=StratifiedKFold(labels, 50),
      scoring='precision')
rfecv.fit(features, labels)
print("Optimal number of features : %d" % rfecv.n_features_)
print rfecv.support_
features=features[:,rfecv.support_]
# Plot number of features VS. cross-validation scores
plt.figure()
plt.xlabel("Number of features selected")
plt.ylabel("Cross validation score (nb of correct classifications)")
plt.plot(range(1, len(rfecv.grid_scores_) + 1), rfecv.grid_scores_)
plt.show()