Statistics 我如何评估预测概率的算法的有效性?

Statistics 我如何评估预测概率的算法的有效性?,statistics,probability,Statistics,Probability,我需要评估预测事件发生概率的算法的有效性 我目前的方法是使用“均方根误差”,即误差平方平均值的平方根,其中误差为1.0——如果事件发生,则预测;如果事件未发生,则预测 这些算法没有特定的应用,但一个常见的应用是预测各种选项中的每一个选项发生的事件,然后选择使该概率最大化的选项。对我们的好处与预期概率最高的选项中预期事件的发生率成正比 有人建议RMSE可能不是最好的选择,我对其他人的意见很感兴趣。我不确定我是否理解你的问题,因此这个答案可能对你没有用处 问题: 如何测试计算系统处于给定状态的概率的

我需要评估预测事件发生概率的算法的有效性

我目前的方法是使用“均方根误差”,即误差平方平均值的平方根,其中误差为1.0——如果事件发生,则预测;如果事件未发生,则预测

这些算法没有特定的应用,但一个常见的应用是预测各种选项中的每一个选项发生的事件,然后选择使该概率最大化的选项。对我们的好处与预期概率最高的选项中预期事件的发生率成正比


有人建议RMSE可能不是最好的选择,我对其他人的意见很感兴趣。

我不确定我是否理解你的问题,因此这个答案可能对你没有用处

问题:
如何测试计算系统处于给定状态的概率的算法是否与实际概率相比较

假设这是一个系统,其中有一个或多个概率初始状态相互作用以产生最终状态,并且初始状态的分布是已知的

这是一个在科学计算中试图估计误差时经常出现的问题

回答:
解决这个问题的一种方法是使用所谓的

要做到这一点,您需要根据初始概率分布选择大量的初始状态。对于每个初始状态,计算系统的最终状态。通过查看最终状态的分布,可以确定最终状态具有特定值的可能性

现在可以将模拟结果与算法结果进行比较

虽然上面的描述听起来可能有些技术性,但在实践中编写起来却相当容易。你可以在网上找到很多教程,尽管大多数教程使用蒙特卡罗技术来解决一个稍微不同的问题

示例:

假设您正在查看一个系统,其中有许多硬币被投掷。你想知道总硬币中有两枚被翻动的概率,两枚硬币都是正面朝上的

你可以写一个算法来预测这种可能性,选项是抛硬币的数量。(当然,这一概率有一个精确的计算。)

要进行模拟,首先要设置大量初始状态。在每个初始状态下,您随机选择每个硬币的正面或反面。现在,您可以计算两个硬币正面朝上的结果数量,并将其与您的预测进行比较。

A是一种广泛使用的分布适合度测试:

∑ (Oi-Ei)2/Ei

其中Oi是观察到的结果i的频率,Ei是预期频率。卡方检验要求每个可能结果的最小样本量(~5或10,取决于分布,尤其是分布的类型)。如果不符合样本量要求,则需要应用Yates的更正:

∑ (| Oi-Ei |-0.5)2/Ei

免责声明:我不是统计学家。上述内容可能遗漏了一些更为精细的要点。我知道有一个很好的理由在RMSE上使用卡方检验,但我不记得它是什么

寻找讨论的网页。

看看

引用维基百科页面:

在信号检测理论中,一种接收机 工作特性(ROC),或 简单的ROC曲线,是一个图形图 灵敏度与(1)的比较− 二元分类器的特殊性 系统作为其判别阈值 是多种多样的。中华民国也可以 通过绘图等效地表示 真阳性分数(TPR)= 真阳性率)与分数 假阳性率(FPR=假 阳性率)。也被称为 相对工作特性 曲线,因为它是 两个工作特性(TPR& 随着标准的变化[1]

ROC分析提供了选择的工具 可能是最佳模型,并放弃 次优的独立于 (在指定之前)成本 上下文或类分布。世界车王争霸赛 分析以直接和间接的方式进行 成本/效益分析的自然方法 诊断性决策。中华民国 这条曲线最早是由 电气工程师和雷达 二战期间的工程师 在战斗中探测敌方目标 字段,也称为信号 检测理论,并很快被采用 引入心理学来解释 用于信号的感知检测。 此后一直采用ROC分析 在医学、放射学和其他领域 几十年来,该地区 最近才在中国引入 其他领域,如机器学习和 数据挖掘

事实上,这比听起来更容易,比较也更容易——“更好”的方法会在视觉上主导劣质方法的ROC曲线


这方面有很多软件包。

听起来你在预测某个值为0或1的东西的结果,对吗?如果是这样,您可以研究离散选择建模的讨论。“选择”这个词不应该太字面化。虽然大多数离散选择模型都是围绕着解释人们每天所做的选择而设计的——买这个或那个,坐火车或开车,走一条路上班或其他——同样的模型已经成功地应用于赛狗和赛马


关于这一主题的关键文本是本·阿基瓦和勒曼以及肯尼斯·特拉恩。此外,还可以查看“Logit模型”,了解有关指定和拟合这些统计模型的信息

用它来赌马?这与我们有同样的关系