Machine learning 基于类的缺失值替换_Machine Learning_Random Forest_Missing Data

Machine learning 基于类的缺失值替换

machine-learning

Machine learning 基于类的缺失值替换,machine-learning,random-forest,missing-data,Machine Learning,Random Forest,Missing Data,我一直在读一篇关于随机森林的文章，在缺失值替换部分（）中，他们说：如果mth变量不是分类变量，则该方法计算类j中该变量所有值的中值，然后使用该值替换类j中所有缺失的mth变量值这不会破坏整个过程吗？如果某些列中的大多数值丢失，那么在这个过程之后，可以使用新的值轻松地识别类，并且生成的分类器将是无用的。我在这里遗漏了什么吗？生成的分类器不一定是无用的，它取决于“遗漏”（特征值缺失的事件）的特征。如果它在列车和测试集之间的分布是相同的（这是ML中普遍存在的隐式假设），那么它是在做正确的事情。然而

我一直在读一篇关于随机森林的文章，在缺失值替换部分（）中，他们说：

如果mth变量不是分类变量，则该方法计算类j中该变量所有值的中值，然后使用该值替换类j中所有缺失的mth变量值

这不会破坏整个过程吗？如果某些列中的大多数值丢失，那么在这个过程之后，可以使用新的值轻松地识别类，并且生成的分类器将是无用的。我在这里遗漏了什么吗？

生成的分类器不一定是无用的，它取决于“遗漏”（特征值缺失的事件）的特征。如果它在列车和测试集之间的分布是相同的（这是ML中普遍存在的隐式假设），那么它是在做正确的事情。然而，如果存在差异，例如，如果缺失值是训练数据生成方式的产物，并且主要与一个类相关，而在测试时特征值总是完全已知，那么这确实是有问题的。在这种情况下，插补可能会导致错误的结论，特别是当缺失值的数量很大时