Statistics 确定两个误差值之间的差异是否显著_Statistics_Probability_Measurement

Statistics 确定两个误差值之间的差异是否显著

statistics

Statistics 确定两个误差值之间的差异是否显著,statistics,probability,measurement,Statistics,Probability,Measurement,我正在评估一些不同的算法，它们的工作是预测事件发生的概率我正在大型ish数据集上测试算法。我使用“均方根误差”来衡量它们的有效性，均方根误差是（（误差总和）平方的平方根）。误差是预测概率（介于0和1之间的浮点值）与实际结果（0.0或1.0）之间的差值所以我知道RMSE，也知道算法测试的样本数问题是，有时RMSE值彼此非常接近，我需要一种方法来确定它们之间的差异是否只是偶然的，或者是否代表了性能的实际差异理想情况下，对于给定的一对RMSE值，我想知道一个比另一个好的概率是多少，这样我就可以

我正在评估一些不同的算法，它们的工作是预测事件发生的概率

我正在大型ish数据集上测试算法。我使用“均方根误差”来衡量它们的有效性，均方根误差是（（误差总和）平方的平方根）。误差是预测概率（介于0和1之间的浮点值）与实际结果（0.0或1.0）之间的差值

所以我知道RMSE，也知道算法测试的样本数

问题是，有时RMSE值彼此非常接近，我需要一种方法来确定它们之间的差异是否只是偶然的，或者是否代表了性能的实际差异

理想情况下，对于给定的一对RMSE值，我想知道一个比另一个好的概率是多少，这样我就可以使用这个概率作为显著性阈值。

MSE是平均值，因此适用中心极限定理。因此，测试两个MSE是否相同与测试两个均值是否相等是相同的。与比较两种方法的标准测试相比，一个困难在于你的样本是相关的——两者都来自同一事件。但MSE的差异与差异平方误差的平均值相同（平均值是线性的）。这建议按如下方式计算a：

对于每个

计算程序1和2的错误

计算误差平方差

（e2^2-e1^2）

计算差异的平均值

计算差异的标准偏差

将t统计量计算为

平均值/（sd/sqrt（n））

将t统计量与临界值进行比较或计算p值。例如，如果

| t |>1.96

，则拒绝5%置信水平的相等性

RMSE是MSE的单调变换，因此该测试不应给出实质性不同的结果。但请注意不要假设MRSE是RMSE

一个更大的担忧应该是过于恰当。确保使用未用于估算模型的数据计算所有MSE统计数据。

您正在进入一个巨大且有争议的领域，不仅是计算领域，而且是哲学领域。显著性检验和模型选择是Bayesian人和常客之间存在强烈分歧的主题。Triston关于将数据集拆分为训练集和验证集的评论不会让贝叶斯网络满意

我建议RMSE不是概率的适当分数。如果样本是独立的，正确的分数是分配给实际结果的概率对数之和。（如果他们不是独立的，你的手上就乱七八糟。）我所描述的是给一个“插件”模型打分。正确的贝叶斯建模需要整合模型参数，这在计算上非常困难。规范插件模型的一种贝叶斯方法是对不太可能（较大）的模型参数的分数增加惩罚。这被称为“重量衰减”

我开始了我的探索之路，阅读克里斯托弗·毕晓普（Christopher Bishop）的《模式识别神经网络》。我使用它和Gill等人的实用优化来编写对我来说非常有效的软件。

我在这里回答评论中的问题。这个主题太大了，在评论中无法处理

克利夫笔记版本

我们正在讨论的分数类型衡量概率。（这是否适用于你正在做的是另一个问题。）如果你假设样本是独立的，你只需将所有概率相乘，就得到了“总”概率。但这通常会导致荒谬的小数字，所以等价地，你加上概率的对数。越大越好。零是完美的

普遍存在的平方误差，-x^2，其中x是模型的误差，来自于（通常是不合理的）假设，即训练数据包括被“高斯噪声”破坏的观测值（测量值）。如果你查阅维基百科或其他关于高斯（也称为正态）分布的定义，您会发现它包含术语e^（-x^2）。取它的自然对数，瞧-x^2。但您的模型不会为测量生成最可能的“预噪波”值。它们直接产生概率。所以我们要做的就是简单地把概率的对数加到观测到的事件上。假设这些观测结果是无噪声的。如果训练数据说它发生了，它就发生了

你原来的问题还没有回答。如何判断两个模型是否“显著”不同？这是一个模糊而困难的问题。这是许多争论的主题，甚至是情绪和敌意。这也不是你想要回答的问题。你想知道的是哪种模式给你带来了最好的预期利润，所有考虑因素，包括每个软件包的成本，等等

我很快就得把这件事结束了。这里不是学习建模与概率课程的地方，我也不是真正合格的教授。

请评论我自己的评论。“适当的分数”这个词太强了。该分数通常是合适的，但您可能需要一个成本分数，该分数考虑了正确分类的收益和错误分类的损失。这是一个深奥的话题。除非您真正了解自己在做什么，并且真正了解数据集与要评估的数据分布之间的关系，否则不要依赖模型来做出重要决策。现在卸下肥皂盒。我完全准备好了。但考虑到这个问题，使用样本外错误的频率t检验在统计学上确实是合理的，应该会给出很好的答案。目前还不清楚具体情况