Machine learning MAE到底在告诉我什么?

Machine learning MAE到底在告诉我什么?,machine-learning,data-science,Machine Learning,Data Science,我创建了一个简单的线性回归模型来预测标准普尔500指数的收盘价。然后计算平均绝对误差(MAE),得出MAE分数为1290。现在,我不想知道这是对还是错,但我想知道1290的MAE对我的模型告诉了我什么。老实说,“总体上”它几乎什么也没告诉你。这个值是任意的,只有你准确地理解了你的数据,你才能得出任何结论 MAE代表平均绝对误差,因此,如果你的平均绝对误差为1290,这意味着,如果你从数据中随机选择一个数据点,那么你预计你的预测将偏离真实值1290。好吗?糟糕?取决于输出的规模。如果以百万计,那么

我创建了一个简单的线性回归模型来预测标准普尔500指数的收盘价。然后计算平均绝对误差(MAE),得出MAE分数为1290。现在,我不想知道这是对还是错,但我想知道1290的MAE对我的模型告诉了我什么。

老实说,“总体上”它几乎什么也没告诉你。这个值是任意的,只有你准确地理解了你的数据,你才能得出任何结论

MAE代表平均绝对误差,因此,如果你的平均绝对误差为1290,这意味着,如果你从数据中随机选择一个数据点,那么你预计你的预测将偏离真实值1290。好吗?糟糕?取决于输出的规模。如果以百万计,那么这么大的误差算不了什么,而且模型是好的。如果您的输出值在数千范围内,这是可怕的


如果我理解正确的话,标准普尔500指数的收盘价是0到2500之间的数字(过去36年),因此1290的错误看起来像是你的模型什么也没学到。这很像一个常数模型,总是回答“1200”或这个值附近的值

使用模型获得的MAE应始终对照基线模型进行验证

常用的基线是中值赋值。当所有预测始终等于目标变量向量的中值时,计算MAE,然后亲自查看模型的MAE是否显著低于该值。如果是,恭喜你

注意,在这种情况下,基线MAE将取决于目标分布。如果您的测试样本包含许多非常接近中间值的实例,那么几乎不可能获得MAE优于基线的模型。因此,只有当您的测试样本足够多样化时,才应使用MAE。在测试样本中只有一个实例的极端情况下,您将得到基线MAE=0,这永远不会比您可能提出的任何模型更糟糕


MAE的这个问题尤其值得注意,当您获得总样本的MAE,然后想要检查它在不同子样本之间的变化。比如说,你有一个基于教育、年龄、婚姻状况等预测年收入的模型。你的平均收入为12万美元,基线平均收入为5万美元,因此你得出结论,你的模型相当不错。然后你想看看这个模型是如何处理底层收入者的,并得到一个1.7万美元的MAE和0.5万美元的基线。同样的情况也可能发生,如果你检查18-22岁人口统计数据中的错误。

我们可以使用MAE来告诉我们我们得到错误答案的概率吗?例如,如果我的量表是-1、0和1,并且分类器的MAE为0.2,我能说20个预测结果样本中的4个是不正确的吗?不,MAE与概率无关,它是一个回归度量,因此应该用于回归任务。对于分类(在“正确答案”有意义的问题上)使用分类指标(比如准确度,也就是你所问的概率)