Machine learning 修改的z分数的阈值应该是多少?

Machine learning 修改的z分数的阈值应该是多少?,machine-learning,statistics,Machine Learning,Statistics,我试图找出数据集中的异常值。我以前用z分数来计算,我用99%的置信区间,就像z分数表上的+/-2.576。然而,我意识到使用中位数绝对偏差计算zscore会更好。我有修改后的z分数基于 0.0645*(x- median)/MAD 我的问题是,我不确定在修改z分数的情况下,什么是好的截止点,或者它是基于我拥有的数据类型吗?这取决于你拥有的数据类型。通常,基于中值的操作会丢失一些异常值信息。然而,足够大的数据集的结果应该是相似的,重心从平均值转移到中值;在倾斜的数据集中,这可能会给您带来更好的结

我试图找出数据集中的异常值。我以前用z分数来计算,我用99%的置信区间,就像z分数表上的+/-2.576。然而,我意识到使用中位数绝对偏差计算zscore会更好。我有修改后的z分数基于

0.0645*(x- median)/MAD

我的问题是,我不确定在修改z分数的情况下,什么是好的截止点,或者它是基于我拥有的数据类型吗?

这取决于你拥有的数据类型。通常,基于中值的操作会丢失一些异常值信息。然而,足够大的数据集的结果应该是相似的,重心从平均值转移到中值;在倾斜的数据集中,这可能会给您带来更好的结果

至于分界点,这里有一个开始提示


想想数学:传统的Z分数是基于平方根计算的。考虑一下这其中的根(N)因素。这将如何影响你的中位数计算的99%点,这是一个简单的线性计算?

我不确定答案,但你认为阈值将取决于我们的记录数。如果我正确阅读了你当前的度量,这是一个简单的线性计算。想象一个分数为1、2、3、4、1000的数据集。最后一个显然是异常值。现在插入数据998999。如果我理解MAD,你仍然有相同的数字。但是,现在有很大的疑问,前三项是异常值。