Machine learning 数据挖掘中的离群点处理

Machine learning 数据挖掘中的离群点处理,machine-learning,data-mining,missing-data,outliers,Machine Learning,Data Mining,Missing Data,Outliers,我在体重指数栏中有一个更突出的数据,它与其他数据相去甚远。第二个最大值为38.1,而异常值为294。它实际上是29.4,在收集数据时出错。我不想删除该行,因为我的数据数量有限。有谁能告诉我解决这个问题的最佳技术方法吗?将该值视为缺失值并应用期望最大化插补或贝叶斯多重插补等方法是否是一种好方法?请帮我解决这个问题。感谢检测不良数据,如有必要,用您喜欢的任何数据插补技术替换它 当然,如果你能留下不好的数据,并设计出足够稳健的整体方法来处理这个问题,那就更好了。是的,如果它真的是一个异常值,你可以删除

我在体重指数栏中有一个更突出的数据,它与其他数据相去甚远。第二个最大值为38.1,而异常值为294。它实际上是29.4,在收集数据时出错。我不想删除该行,因为我的数据数量有限。有谁能告诉我解决这个问题的最佳技术方法吗?将该值视为缺失值并应用期望最大化插补或贝叶斯多重插补等方法是否是一种好方法?请帮我解决这个问题。感谢

检测不良数据,如有必要,用您喜欢的任何数据插补技术替换它


当然,如果你能留下不好的数据,并设计出足够稳健的整体方法来处理这个问题,那就更好了。

是的,如果它真的是一个异常值,你可以删除它并使用插补技术来替换它

在使用多重插补之前,请确保您理解多重插补的概念。如果要正确使用MI,还必须在插补本身之后更改处理步骤。(如果您使用的是WARE,您可以查看mice软件包)

如果您不想处理多个插补数据集,基于EM的插补算法是一个可靠的选择。(如果您使用的是R,您可以查看VIM或imputeR软件包)