Machine learning 修改的z分数的阈值应该是多少？_Machine Learning_Statistics

Machine learning 修改的z分数的阈值应该是多少？

machine-learning statistics

Machine learning 修改的z分数的阈值应该是多少？,machine-learning,statistics,Machine Learning,Statistics,我试图找出数据集中的异常值。我以前用z分数来计算，我用99%的置信区间，就像z分数表上的+/-2.576。然而，我意识到使用中位数绝对偏差计算zscore会更好。我有修改后的z分数基于 0.0645*(x- median)/MAD 我的问题是，我不确定在修改z分数的情况下，什么是好的截止点，或者它是基于我拥有的数据类型吗？这取决于你拥有的数据类型。通常，基于中值的操作会丢失一些异常值信息。然而，足够大的数据集的结果应该是相似的，重心从平均值转移到中值；在倾斜的数据集中，这可能会给您带来更好的结

我试图找出数据集中的异常值。我以前用z分数来计算，我用99%的置信区间，就像z分数表上的+/-2.576。然而，我意识到使用中位数绝对偏差计算zscore会更好。我有修改后的z分数基于

0.0645*(x- median)/MAD

我的问题是，我不确定在修改z分数的情况下，什么是好的截止点，或者它是基于我拥有的数据类型吗？

这取决于你拥有的数据类型。通常，基于中值的操作会丢失一些异常值信息。然而，足够大的数据集的结果应该是相似的，重心从平均值转移到中值；在倾斜的数据集中，这可能会给您带来更好的结果

至于分界点，这里有一个开始提示

想想数学：传统的Z分数是基于平方根计算的。考虑一下这其中的根（N）因素。这将如何影响你的中位数计算的99%点，这是一个简单的线性计算？

我不确定答案，但你认为阈值将取决于我们的记录数。如果我正确阅读了你当前的度量，这是一个简单的线性计算。想象一个分数为1、2、3、4、1000的数据集。最后一个显然是异常值。现在插入数据998999。如果我理解MAD，你仍然有相同的数字。但是，现在有很大的疑问，前三项是异常值。