Pandas 如何比较不同线性回归模型的有效性

Pandas 如何比较不同线性回归模型的有效性,pandas,scikit-learn,linear-regression,Pandas,Scikit Learn,Linear Regression,我有一个数据框架,其中包含目标列和其他列之间的三个或多或少的显著相关性(sklearn中的LinarRegressionModel.coef显示了57、97和79)。我不知道应该选择什么样的精确模型:我应该只使用最相关的列进行回归,还是使用所有三个预测因子的回归。有没有办法比较模型的有效性?抱歉,我对数据分析非常陌生,我无法搜索任何用于此任务的工具。首先,您必须知道,当我们选择应用于新数据的最佳模型时,我们将选择适合样本数据的最佳模型,而样本数据可能不在培训过程中,毕竟,你想要预测新的可能性或案

我有一个数据框架,其中包含目标列和其他列之间的三个或多或少的显著相关性(sklearn中的LinarRegressionModel.coef显示了57、97和79)。我不知道应该选择什么样的精确模型:我应该只使用最相关的列进行回归,还是使用所有三个预测因子的回归。有没有办法比较模型的有效性?抱歉,我对数据分析非常陌生,我无法搜索任何用于此任务的工具。首先,您必须知道,当我们选择应用于新数据的最佳模型时,我们将选择适合样本数据的最佳模型,而样本数据可能不在培训过程中,毕竟,你想要预测新的可能性或案例。在你的情况下,预测一个新的数字

那么,我们如何才能做到这一点呢?好的,最好的方法是使用指标,它可以帮助我们选择哪个模型更适合我们的数据集

回归的指标有很多种:

  • MAE:平均绝对误差是误差绝对值的平均值。这是最容易理解的指标,因为它只是平均误差
  • MSE:均方误差是均方误差的平均值。它比平均绝对误差更受欢迎,因为焦点更倾向于大误差
  • RMSE:根表示平方误差是均方误差的平方根。这是最常用的评估指标之一,因为根表示平方误差可以用响应向量或y单位的相同单位来解释,因此很容易关联其信息
  • RAE:相对绝对误差,也称为平方的残差和,其中y条是y的平均值,取总绝对误差,并通过除以简单预测器的总绝对误差对其进行归一化

您可以使用其中任何一种,但我强烈建议使用MSERMSE

这很可能会被忽略或关闭太广。您应该将此问题迁移到交叉验证社区,并尝试更具体。有很多方法可以比较不同线性回归模型的有效性,但是如果不知道您要做什么,就不可能回答。还可以尝试搜索功能选择,这是选择要用作模型输入的功能的过程。谢谢!嵌入式Scikit MSE真的很有帮助