Machine learning 我如何确保我的R^2分数？_Machine Learning_Scikit Learn_Regression_Data Mining

Machine learning 我如何确保我的R^2分数？

machine-learning scikit-learn

Machine learning 我如何确保我的R^2分数？,machine-learning,scikit-learn,regression,data-mining,Machine Learning,Scikit Learn,Regression,Data Mining,我有一个10列158行的数据集。我试图预测我的测试数据集，它是一列158行我做了交叉验证，网格搜索和使用ElasticNet算法同样在评估模型之前，我检查了我用来训练模型的10列与我试图预测的另外1列之间的皮尔逊相关性。相关性不好，但当我评估模型时，R^2分数接近0.98 我如何确保这个分数是保密的？因为我没想到会有这样的R2。这比我想象的要高提前感谢。一个好的模型可以给出接近1.0的R^2分数。这意味着学习的模型非常适合测试数据。如果要预测连续值，可以绘制并检查实际值和预测值。它可以更好

我有一个10列158行的数据集。我试图预测我的测试数据集，它是一列158行

我做了交叉验证，网格搜索和使用ElasticNet算法

同样在评估模型之前，我检查了我用来训练模型的10列与我试图预测的另外1列之间的皮尔逊相关性。相关性不好，但当我评估模型时，R^2分数接近0.98

我如何确保这个分数是保密的？因为我没想到会有这样的R2。这比我想象的要高

提前感谢。

一个好的模型可以给出接近1.0的R^2分数。这意味着学习的模型非常适合测试数据。如果要预测连续值，可以绘制并检查实际值和预测值。它可以更好地描述你的模型

此外，您还可以尝试使用不同的误差度量，如均方根误差、均方误差或绝对误差（用于回归和精度），ROC曲线或混淆矩阵（用于分类），以确保您的模型确实很好

另一件重要的事情是，你不能真正比较皮尔逊系数和R^2分数。皮尔逊系数低的特征可以导致模型具有良好的R^2分数，反之亦然

这是因为皮尔逊相关性只是给出变量之间的线性依赖关系。在您的情况下，相关性的低值意味着您的特征和目标不是线性相关的。这也可能意味着，特征具有高度的非线性相关性（这可能是模型具有良好R^2分数的原因）。所以，皮尔逊系数的低值并不意味着你的特征不好。如果您确实想测试您的功能是否良好，请尝试不同的相关系数，如距离相关或秩相关

特性评估或选择的其他替代方法是在scipy中使用模块

希望这能回答你的问题

这不是一个编码问题。机器学习可能更适合于