Python scikit learn GridSearchCV最佳分数是如何计算的?
我一直在试图弄清楚GridSearchCV的最佳评分参数是如何计算的(或者换句话说,它是什么意思)。 报告说: 遗漏数据的最佳估计值得分 因此,我试图将其转化为我理解的东西,并计算了每个kfold的实际“y”和预测y的r2_分数,得到了不同的结果(使用这段代码): 我到处寻找关于最佳分数的更有意义的解释,但什么也找不到。有人愿意解释一下吗Python scikit learn GridSearchCV最佳分数是如何计算的?,python,python-2.7,machine-learning,scikit-learn,Python,Python 2.7,Machine Learning,Scikit Learn,我一直在试图弄清楚GridSearchCV的最佳评分参数是如何计算的(或者换句话说,它是什么意思)。 报告说: 遗漏数据的最佳估计值得分 因此,我试图将其转化为我理解的东西,并计算了每个kfold的实际“y”和预测y的r2_分数,得到了不同的结果(使用这段代码): 我到处寻找关于最佳分数的更有意义的解释,但什么也找不到。有人愿意解释一下吗 谢谢这是最佳估计器的平均交叉验证分数。让我们制作一些数据并修复交叉验证的数据划分 >>> y = linspace(-5, 5, 200)
谢谢这是最佳估计器的平均交叉验证分数。让我们制作一些数据并修复交叉验证的数据划分
>>> y = linspace(-5, 5, 200)
>>> X = (y + np.random.randn(200)).reshape(-1, 1)
>>> threefold = list(KFold(len(y)))
现在运行cross\u val\u score
和GridSearchCV
,两者都使用这些固定折叠
>>> cross_val_score(LinearRegression(), X, y, cv=threefold)
array([-0.86060164, 0.2035956 , -0.81309259])
>>> gs = GridSearchCV(LinearRegression(), {}, cv=threefold, verbose=3).fit(X, y)
Fitting 3 folds for each of 1 candidates, totalling 3 fits
[CV] ................................................................
[CV] ...................................... , score=-0.860602 - 0.0s
[Parallel(n_jobs=1)]: Done 1 jobs | elapsed: 0.0s
[CV] ................................................................
[CV] ....................................... , score=0.203596 - 0.0s
[CV] ................................................................
[CV] ...................................... , score=-0.813093 - 0.0s
[Parallel(n_jobs=1)]: Done 3 out of 3 | elapsed: 0.0s finished
注意GridSearchCV
输出中的score=-0.860602
,score=0.203596
和score=-0.813093
;确切地说是cross\u val\u score
返回的值
请注意,“平均值”实际上是褶皱的宏观平均值。可以使用
GridSearchCV
的iid
参数来获得样本的微平均值。它通常是褶皱的平均值。但是,如果你能发布完整的代码,例如在模拟数据上,那就太好了。你能添加gs.best_score_
和cross_val_score.mean()
?确实:>gs.best_score_-0.41004566175481089>>cross_val_score(LinearRegression(),X,y,cv=3倍)。mean()-0.41073841862279581
我希望进一步解释交叉值-是每个kfold的r2值吗?@talkmerman这是任何估计器。分数(X[test\u ind],y[test\u ind])
返回,对于回归估计器,这是R²。
>>> cross_val_score(LinearRegression(), X, y, cv=threefold)
array([-0.86060164, 0.2035956 , -0.81309259])
>>> gs = GridSearchCV(LinearRegression(), {}, cv=threefold, verbose=3).fit(X, y)
Fitting 3 folds for each of 1 candidates, totalling 3 fits
[CV] ................................................................
[CV] ...................................... , score=-0.860602 - 0.0s
[Parallel(n_jobs=1)]: Done 1 jobs | elapsed: 0.0s
[CV] ................................................................
[CV] ....................................... , score=0.203596 - 0.0s
[CV] ................................................................
[CV] ...................................... , score=-0.813093 - 0.0s
[Parallel(n_jobs=1)]: Done 3 out of 3 | elapsed: 0.0s finished