Machine learning 基于类的缺失值替换

Machine learning 基于类的缺失值替换,machine-learning,random-forest,missing-data,Machine Learning,Random Forest,Missing Data,我一直在读一篇关于随机森林的文章,在缺失值替换部分()中,他们说: 如果mth变量不是分类变量,则该方法计算类j中该变量所有值的中值,然后使用该值替换类j中所有缺失的mth变量值 这不会破坏整个过程吗?如果某些列中的大多数值丢失,那么在这个过程之后,可以使用新的值轻松地识别类,并且生成的分类器将是无用的。我在这里遗漏了什么吗?生成的分类器不一定是无用的,它取决于“遗漏”(特征值缺失的事件)的特征。如果它在列车和测试集之间的分布是相同的(这是ML中普遍存在的隐式假设),那么它是在做正确的事情。然而

我一直在读一篇关于随机森林的文章,在缺失值替换部分()中,他们说:

如果mth变量不是分类变量,则该方法计算类j中该变量所有值的中值,然后使用该值替换类j中所有缺失的mth变量值


这不会破坏整个过程吗?如果某些列中的大多数值丢失,那么在这个过程之后,可以使用新的值轻松地识别类,并且生成的分类器将是无用的。我在这里遗漏了什么吗?

生成的分类器不一定是无用的,它取决于“遗漏”(特征值缺失的事件)的特征。如果它在列车和测试集之间的分布是相同的(这是ML中普遍存在的隐式假设),那么它是在做正确的事情。然而,如果存在差异,例如,如果缺失值是训练数据生成方式的产物,并且主要与一个类相关,而在测试时特征值总是完全已知,那么这确实是有问题的。在这种情况下,插补可能会导致错误的结论,特别是当缺失值的数量很大时