Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/logging/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
评估线性回归(在microsoft机器学习中)_R_Machine Learning_Statistics_Azure Machine Learning Studio - Fatal编程技术网

评估线性回归(在microsoft机器学习中)

评估线性回归(在microsoft机器学习中),r,machine-learning,statistics,azure-machine-learning-studio,R,Machine Learning,Statistics,Azure Machine Learning Studio,我在azure机器学习和评估模型中玩线性回归 我仍然有点不确定评估的各种指标是什么意思和显示,所以如果我不正确,我希望一些更正 平均绝对误差:残差(误差)的平均值 均方根误差:残差的标准偏差。有了这个,我可以看到我的绝对误差离平均值/中值有多远 相对绝对误差:显示相对误差和绝对误差之间百分比差异的百分比值。值越小越好,表示差异越小 相对平方误差:相对绝对误差平方的误差平方。不确定相对绝对误差给我带来了什么 确定系数:表示输入之间的相关性。+1或-1表示完全相关性,0表示无 柱状图显示了各种错误大

我在azure机器学习和评估模型中玩线性回归

我仍然有点不确定评估的各种指标是什么意思和显示,所以如果我不正确,我希望一些更正

  • 平均绝对误差:残差(误差)的平均值
  • 均方根误差:残差的标准偏差。有了这个,我可以看到我的绝对误差离平均值/中值有多远
  • 相对绝对误差:显示相对误差和绝对误差之间百分比差异的百分比值。值越小越好,表示差异越小
  • 相对平方误差:相对绝对误差平方的误差平方。不确定相对绝对误差给我带来了什么
  • 确定系数:表示输入之间的相关性。+1或-1表示完全相关性,0表示无
  • 柱状图显示了各种错误大小的频率。这显示了许多小错误。随着错误值的增加,频率降低,这表明,当与上述较差的度量一起使用时,可能有一些sku或异常值对模型有很大影响,从而降低了模型的准确性
  • 这些定义和假设正确吗


    您在大多数方面几乎都是正确的。为了确保我们用相同的术语进行讨论,请提供一点背景知识:

    线性回归使用一些结果变量
    y
    和自变量
    x1,x2,…
    的数据,并试图找到最能预测
    y
    x1,x2,…
    的线性组合。一旦建立了“最佳线性组合”,您就可以评估拟合的质量(即模型的质量)你提到的六点都是回归方程质量的关键指标

    运行回归将为您提供多个“成分”。例如,每次观察都将获得结果变量的预测值。
    y
    的观察值与预测值之间的差值称为残差或误差。残差可以是负值(如果
    y
    被高估)也可以是正值(如果
    y
    被低估)。残差越接近于零越好。但是,什么是“接近”?您提供的度量应该能够提供这方面的见解

    • 平均绝对误差:取残差的绝对值并取其平均值
    • 均方根误差:是残差的标准偏差。这将帮助您了解残差的分布有多大。残差是平方的,因此,高残差比小残差更重要。低RMSE是好的
    • 相对绝对误差:绝对误差作为结果变量
      y
      实际值的一部分。在您的情况下,预测值平均比
      y
      的实际值高/低75%

    • 相对平方误差:平方误差(
      残差^2
      )为实际值的一部分

    • 决定系数:几乎正确。这一范围介于0和1之间,可以解释为自变量在解释
      y
      时的解释力。事实上,在您的案例中,自变量可以模拟
      y
      中38,15%的变化。此外,如果您只有一个自变量b这个系数等于相关系数的平方

    在几乎所有情况下,均方根误差和确定系数都是最重要的指标。老实说,我从来没有真正看到过其他指标被报告。

    感谢您的回复。这有助于澄清我的一些想法。在评估模型也是非常有用的信息。