Machine learning MAE到底在告诉我什么？_Machine Learning_Data Science

Machine learning MAE到底在告诉我什么？

machine-learning

Machine learning MAE到底在告诉我什么？,machine-learning,data-science,Machine Learning,Data Science,我创建了一个简单的线性回归模型来预测标准普尔500指数的收盘价。然后计算平均绝对误差（MAE），得出MAE分数为1290。现在，我不想知道这是对还是错，但我想知道1290的MAE对我的模型告诉了我什么。老实说，“总体上”它几乎什么也没告诉你。这个值是任意的，只有你准确地理解了你的数据，你才能得出任何结论 MAE代表平均绝对误差，因此，如果你的平均绝对误差为1290，这意味着，如果你从数据中随机选择一个数据点，那么你预计你的预测将偏离真实值1290。好吗？糟糕？取决于输出的规模。如果以百万计，那么

我创建了一个简单的线性回归模型来预测标准普尔500指数的收盘价。然后计算平均绝对误差（MAE），得出MAE分数为1290。现在，我不想知道这是对还是错，但我想知道1290的MAE对我的模型告诉了我什么。

老实说，“总体上”它几乎什么也没告诉你。这个值是任意的，只有你准确地理解了你的数据，你才能得出任何结论

MAE代表平均绝对误差，因此，如果你的平均绝对误差为1290，这意味着，如果你从数据中随机选择一个数据点，那么你预计你的预测将偏离真实值1290。好吗？糟糕？取决于输出的规模。如果以百万计，那么这么大的误差算不了什么，而且模型是好的。如果您的输出值在数千范围内，这是可怕的

如果我理解正确的话，标准普尔500指数的收盘价是0到2500之间的数字（过去36年），因此1290的错误看起来像是你的模型什么也没学到。这很像一个常数模型，总是回答“1200”或这个值附近的值

使用模型获得的MAE应始终对照基线模型进行验证

常用的基线是中值赋值。当所有预测始终等于目标变量向量的中值时，计算MAE，然后亲自查看模型的MAE是否显著低于该值。如果是，恭喜你

注意，在这种情况下，基线MAE将取决于目标分布。如果您的测试样本包含许多非常接近中间值的实例，那么几乎不可能获得MAE优于基线的模型。因此，只有当您的测试样本足够多样化时，才应使用MAE。在测试样本中只有一个实例的极端情况下，您将得到基线MAE=0，这永远不会比您可能提出的任何模型更糟糕

MAE的这个问题尤其值得注意，当您获得总样本的MAE，然后想要检查它在不同子样本之间的变化。比如说，你有一个基于教育、年龄、婚姻状况等预测年收入的模型。你的平均收入为12万美元，基线平均收入为5万美元，因此你得出结论，你的模型相当不错。然后你想看看这个模型是如何处理底层收入者的，并得到一个1.7万美元的MAE和0.5万美元的基线。同样的情况也可能发生，如果你检查18-22岁人口统计数据中的错误。

我们可以使用MAE来告诉我们我们得到错误答案的概率吗？例如，如果我的量表是-1、0和1，并且分类器的MAE为0.2，我能说20个预测结果样本中的4个是不正确的吗？不，MAE与概率无关，它是一个回归度量，因此应该用于回归任务。对于分类（在“正确答案”有意义的问题上）使用分类指标（比如准确度，也就是你所问的概率）