Statistics 确定两个误差值之间的差异是否显著

Statistics 确定两个误差值之间的差异是否显著,statistics,probability,measurement,Statistics,Probability,Measurement,我正在评估一些不同的算法,它们的工作是预测事件发生的概率 我正在大型ish数据集上测试算法。我使用“均方根误差”来衡量它们的有效性,均方根误差是((误差总和)平方的平方根)。误差是预测概率(介于0和1之间的浮点值)与实际结果(0.0或1.0)之间的差值 所以我知道RMSE,也知道算法测试的样本数 问题是,有时RMSE值彼此非常接近,我需要一种方法来确定它们之间的差异是否只是偶然的,或者是否代表了性能的实际差异 理想情况下,对于给定的一对RMSE值,我想知道一个比另一个好的概率是多少,这样我就可以

我正在评估一些不同的算法,它们的工作是预测事件发生的概率

我正在大型ish数据集上测试算法。我使用“均方根误差”来衡量它们的有效性,均方根误差是((误差总和)平方的平方根)。误差是预测概率(介于0和1之间的浮点值)与实际结果(0.0或1.0)之间的差值

所以我知道RMSE,也知道算法测试的样本数

问题是,有时RMSE值彼此非常接近,我需要一种方法来确定它们之间的差异是否只是偶然的,或者是否代表了性能的实际差异


理想情况下,对于给定的一对RMSE值,我想知道一个比另一个好的概率是多少,这样我就可以使用这个概率作为显著性阈值。

MSE是平均值,因此适用中心极限定理。因此,测试两个MSE是否相同与测试两个均值是否相等是相同的。与比较两种方法的标准测试相比,一个困难在于你的样本是相关的——两者都来自同一事件。但MSE的差异与差异平方误差的平均值相同(平均值是线性的)。这建议按如下方式计算a:

  • 对于每个
    x
    计算程序1和2的错误
    e
  • 计算误差平方差
    (e2^2-e1^2)
  • 计算差异的平均值
  • 计算差异的标准偏差
  • 将t统计量计算为
    平均值/(sd/sqrt(n))
  • 将t统计量与临界值进行比较或计算p值。例如,如果
    | t |>1.96
    ,则拒绝5%置信水平的相等性
  • RMSE是MSE的单调变换,因此该测试不应给出实质性不同的结果。但请注意不要假设MRSE是RMSE


    一个更大的担忧应该是过于恰当。确保使用未用于估算模型的数据计算所有MSE统计数据。

    您正在进入一个巨大且有争议的领域,不仅是计算领域,而且是哲学领域。显著性检验和模型选择是Bayesian人和常客之间存在强烈分歧的主题。Triston关于将数据集拆分为训练集和验证集的评论不会让贝叶斯网络满意

    我建议RMSE不是概率的适当分数。如果样本是独立的,正确的分数是分配给实际结果的概率对数之和。(如果他们不是独立的,你的手上就乱七八糟。)我所描述的是给一个“插件”模型打分。正确的贝叶斯建模需要整合模型参数,这在计算上非常困难。规范插件模型的一种贝叶斯方法是对不太可能(较大)的模型参数的分数增加惩罚。这被称为“重量衰减”


    我开始了我的探索之路,阅读克里斯托弗·毕晓普(Christopher Bishop)的《模式识别神经网络》。我使用它和Gill等人的实用优化来编写对我来说非常有效的软件。

    我在这里回答评论中的问题。这个主题太大了,在评论中无法处理

    克利夫笔记版本

    我们正在讨论的分数类型衡量概率。(这是否适用于你正在做的是另一个问题。)如果你假设样本是独立的,你只需将所有概率相乘,就得到了“总”概率。但这通常会导致荒谬的小数字,所以等价地,你加上概率的对数。越大越好。零是完美的

    普遍存在的平方误差,-x^2,其中x是模型的误差,来自于(通常是不合理的)假设,即训练数据包括被“高斯噪声”破坏的观测值(测量值)。如果你查阅维基百科或其他关于高斯(也称为正态)分布的定义,您会发现它包含术语e^(-x^2)。取它的自然对数,瞧-x^2。但您的模型不会为测量生成最可能的“预噪波”值。它们直接产生概率。所以我们要做的就是简单地把概率的对数加到观测到的事件上。假设这些观测结果是无噪声的。如果训练数据说它发生了,它就发生了

    你原来的问题还没有回答。如何判断两个模型是否“显著”不同?这是一个模糊而困难的问题。这是许多争论的主题,甚至是情绪和敌意。这也不是你想要回答的问题。你想知道的是哪种模式给你带来了最好的预期利润,所有考虑因素,包括每个软件包的成本,等等


    我很快就得把这件事结束了。这里不是学习建模与概率课程的地方,我也不是真正合格的教授。

    请评论我自己的评论。“适当的分数”这个词太强了。该分数通常是合适的,但您可能需要一个成本分数,该分数考虑了正确分类的收益和错误分类的损失。这是一个深奥的话题。除非您真正了解自己在做什么,并且真正了解数据集与要评估的数据分布之间的关系,否则不要依赖模型来做出重要决策。现在卸下肥皂盒。我完全准备好了。但考虑到这个问题,使用样本外错误的频率t检验在统计学上确实是合理的,应该会给出很好的答案。目前还不清楚具体情况