Algorithm 检测与其余数据非常分散的点

Algorithm 检测与其余数据非常分散的点,algorithm,statistics,detection,Algorithm,Statistics,Detection,我有一组结果(数字),我想知道与以前的结果(仅以前的结果)相比,给定的结果是否非常好/不好 每个结果都是一个数字。例如,如果您有序列10,11,10,9.5,16,那么与前面的序列相比,16显然是一个非常好的结果。我想找到一种算法来检测这种情况(与以前的结果相比,结果非常好/不好) 说明这个问题的一个更一般的方法是:如何确定给定数据集中的一个点是否分散在其他数据中 现在,这看起来像是峰值检测问题,但是由于前面的值不是常数,所以有很多小峰值,我只想要大的 我的第一个想法是计算平均值并确定标准偏差

我有一组结果(数字),我想知道与以前的结果(仅以前的结果)相比,给定的结果是否非常好/不好

每个结果都是一个数字。例如,如果您有序列
10,11,10,9.5,16
,那么与前面的序列相比,16显然是一个非常好的结果。我想找到一种算法来检测这种情况(与以前的结果相比,结果非常好/不好)

说明这个问题的一个更一般的方法是:如何确定给定数据集中的一个点是否分散在其他数据中

现在,这看起来像是峰值检测问题,但是由于前面的值不是常数,所以有很多小峰值,我只想要大的

我的第一个想法是计算平均值并确定标准偏差,但它非常有限。事实上,如果之前的结果中有一个
巨大/较低的值,则平均值/标准偏差将发生显著变化,下一个结果必须更大/更低,以超过标准偏差(以便检测),因此许多点将无法(正确地)检测

我很肯定那一定是个众所周知的问题


有人能帮我解决这个问题吗?

这类问题被称为。

如果在数据历史记录中至少发生过一次类似大小的结果,则如果将新值评为普通值,则聚类可能最适合您的需要。在这种情况下,排除所有试图平均先前结果的方案,例如使用某种方法。事实上,数据集中的值可以增加/减少。因此,当数据中出现“趋势”(增加/减少)时,观察类似大小的结果是否至少发生一次的想法可能不起作用。趋势是线性的吗?它可以是任何东西(不一定是线性的)。。数据本身有一点随机性。你说得对,谢谢:p与我有相同问题的其他人可能希望查找异常值检测