Python scikit learn GridSearchCV最佳分数是如何计算的？_Python_Python 2.7_Machine Learning_Scikit Learn

Python scikit learn GridSearchCV最佳分数是如何计算的？

python python-2.7 machine-learning scikit-learn

Python scikit learn GridSearchCV最佳分数是如何计算的？,python,python-2.7,machine-learning,scikit-learn,Python,Python 2.7,Machine Learning,Scikit Learn,我一直在试图弄清楚GridSearchCV的最佳评分参数是如何计算的（或者换句话说，它是什么意思）。报告说：遗漏数据的最佳估计值得分因此，我试图将其转化为我理解的东西，并计算了每个kfold的实际“y”和预测y的r2_分数，得到了不同的结果（使用这段代码）：我到处寻找关于最佳分数的更有意义的解释，但什么也找不到。有人愿意解释一下吗谢谢这是最佳估计器的平均交叉验证分数。让我们制作一些数据并修复交叉验证的数据划分 >>> y = linspace(-5, 5, 200)

我一直在试图弄清楚GridSearchCV的最佳评分参数是如何计算的（或者换句话说，它是什么意思）。报告说：

遗漏数据的最佳估计值得分

因此，我试图将其转化为我理解的东西，并计算了每个kfold的实际“y”和预测y的r2_分数，得到了不同的结果（使用这段代码）：

我到处寻找关于最佳分数的更有意义的解释，但什么也找不到。有人愿意解释一下吗

谢谢

这是最佳估计器的平均交叉验证分数。让我们制作一些数据并修复交叉验证的数据划分

>>> y = linspace(-5, 5, 200)
>>> X = (y + np.random.randn(200)).reshape(-1, 1)
>>> threefold = list(KFold(len(y)))

现在运行

cross\u val\u score

和

GridSearchCV

，两者都使用这些固定折叠

>>> cross_val_score(LinearRegression(), X, y, cv=threefold)
array([-0.86060164,  0.2035956 , -0.81309259])
>>> gs = GridSearchCV(LinearRegression(), {}, cv=threefold, verbose=3).fit(X, y) 
Fitting 3 folds for each of 1 candidates, totalling 3 fits
[CV]  ................................................................
[CV] ...................................... , score=-0.860602 -   0.0s
[Parallel(n_jobs=1)]: Done   1 jobs       | elapsed:    0.0s
[CV]  ................................................................
[CV] ....................................... , score=0.203596 -   0.0s
[CV]  ................................................................
[CV] ...................................... , score=-0.813093 -   0.0s
[Parallel(n_jobs=1)]: Done   3 out of   3 | elapsed:    0.0s finished

注意

GridSearchCV

输出中的

score=-0.860602

，

score=0.203596

和

score=-0.813093

；确切地说是

cross\u val\u score

返回的值

请注意，“平均值”实际上是褶皱的宏观平均值。可以使用

GridSearchCV

的

iid

参数来获得样本的微平均值。

它通常是褶皱的平均值。但是，如果你能发布完整的代码，例如在模拟数据上，那就太好了。你能添加

gs.best_score_

和

cross_val_score.mean（）

？确实：

>gs.best_score_-0.41004566175481089>>cross_val_score（LinearRegression（），X，y，cv=3倍）。mean（）-0.41073841862279581

我希望进一步解释交叉值-是每个kfold的r2值吗？@talkmerman这是任何

估计器。分数（X[test\u ind]，y[test\u ind]）

返回，对于回归估计器，这是R²。

>>> cross_val_score(LinearRegression(), X, y, cv=threefold)
array([-0.86060164,  0.2035956 , -0.81309259])
>>> gs = GridSearchCV(LinearRegression(), {}, cv=threefold, verbose=3).fit(X, y) 
Fitting 3 folds for each of 1 candidates, totalling 3 fits
[CV]  ................................................................
[CV] ...................................... , score=-0.860602 -   0.0s
[Parallel(n_jobs=1)]: Done   1 jobs       | elapsed:    0.0s
[CV]  ................................................................
[CV] ....................................... , score=0.203596 -   0.0s
[CV]  ................................................................
[CV] ...................................... , score=-0.813093 -   0.0s
[Parallel(n_jobs=1)]: Done   3 out of   3 | elapsed:    0.0s finished