Statistics 标准化完成后,异常值删除的需要是什么?

Statistics 标准化完成后,异常值删除的需要是什么?,statistics,normalization,data-cleaning,outliers,Statistics,Normalization,Data Cleaning,Outliers,我想知道,如果我的随机变量X已经标准化,是否要删除异常值。我有这个问题,因为我在X中的所有值都在0和1之间,它不会影响变量X,因为异常值不是完全极端的。什么是异常值,真的 一些异常值可能由错误的数据管理引起;有人输入“5000”,而他们真正的意思是“5000”。如果是这种情况,必须删除异常值,因为它们是错误的,即存在测量误差 然而,异常值也有另一种含义。假设您有一个变量X的样本,它似乎是标准正态分布的。然而,在您的数据集中,也有一些非常高/低的值,这在正态性假设下似乎不太可能。在这种情况下,有些

我想知道,如果我的随机变量X已经标准化,是否要删除异常值。我有这个问题,因为我在X中的所有值都在0和1之间,它不会影响变量X,因为异常值不是完全极端的。

什么是异常值,真的

一些异常值可能由错误的数据管理引起;有人输入“5000”,而他们真正的意思是“5000”。如果是这种情况,必须删除异常值,因为它们是错误的,即存在测量误差

然而,异常值也有另一种含义。假设您有一个变量X的样本,它似乎是标准正态分布的。然而,在您的数据集中,也有一些非常高/低的值,这在正态性假设下似乎不太可能。在这种情况下,有些人倾向于忽略那些非常高/很低的值,我个人认为这是不正确的,因为它们似乎是真实数据生成过程中最有用的信息(假设我们可以排除测量误差作为其值的来源)

我希望我能帮助你