Machine learning 我如何确保我的R^2分数?

Machine learning 我如何确保我的R^2分数?,machine-learning,scikit-learn,regression,data-mining,Machine Learning,Scikit Learn,Regression,Data Mining,我有一个10列158行的数据集。我试图预测我的测试数据集,它是一列158行 我做了交叉验证,网格搜索和使用ElasticNet算法 同样在评估模型之前,我检查了我用来训练模型的10列与我试图预测的另外1列之间的皮尔逊相关性。相关性不好,但当我评估模型时,R^2分数接近0.98 我如何确保这个分数是保密的?因为我没想到会有这样的R2。这比我想象的要高 提前感谢。一个好的模型可以给出接近1.0的R^2分数。这意味着学习的模型非常适合测试数据。如果要预测连续值,可以绘制并检查实际值和预测值。它可以更好

我有一个10列158行的数据集。我试图预测我的测试数据集,它是一列158行

我做了交叉验证,网格搜索和使用ElasticNet算法

同样在评估模型之前,我检查了我用来训练模型的10列与我试图预测的另外1列之间的皮尔逊相关性。相关性不好,但当我评估模型时,R^2分数接近0.98

我如何确保这个分数是保密的?因为我没想到会有这样的R2。这比我想象的要高


提前感谢。

一个好的模型可以给出接近1.0的R^2分数。这意味着学习的模型非常适合测试数据。如果要预测连续值,可以绘制并检查实际值和预测值。它可以更好地描述你的模型

此外,您还可以尝试使用不同的误差度量,如均方根误差、均方误差或绝对误差(用于回归和精度),ROC曲线或混淆矩阵(用于分类),以确保您的模型确实很好

另一件重要的事情是,你不能真正比较皮尔逊系数和R^2分数。皮尔逊系数低的特征可以导致模型具有良好的R^2分数,反之亦然

这是因为皮尔逊相关性只是给出变量之间的线性依赖关系。在您的情况下,相关性的低值意味着您的特征和目标不是线性相关的。这也可能意味着,特征具有高度的非线性相关性(这可能是模型具有良好R^2分数的原因)。所以,皮尔逊系数的低值并不意味着你的特征不好。如果您确实想测试您的功能是否良好,请尝试不同的相关系数,如距离相关或秩相关

特性评估或选择的其他替代方法是在scipy中使用模块


希望这能回答你的问题

这不是一个编码问题。机器学习可能更适合于