Scikit learn 处理随机森林回归器中缺失分类特征值的指南_Scikit Learn_Random Forest

Scikit learn 处理随机森林回归器中缺失分类特征值的指南

scikit-learn

Scikit learn 处理随机森林回归器中缺失分类特征值的指南,scikit-learn,random-forest,Scikit Learn,Random Forest,当使用随机森林回归器（或任何集成学习器）时，处理缺失分类特征值的一般准则是什么？我知道scikit learn具有插补功能（如平均值…策略或接近度）来插补缺失值（数值）。但是，人们如何处理缺失的分类价值：比如工业（石油、计算机、汽车，无），专业（学士、硕士、博士，无）欢迎提出任何建议。随机森林的发明者布雷曼和卡特勒提出了两种可能的策略（见）：随机林有两种替换缺失值的方法。第一条路速度很快。如果mth变量不是分类变量，则该方法计算 j类中该变量所有值的中值，然后使用此值用于替换类中mth变

当使用随机森林回归器（或任何集成学习器）时，处理缺失分类特征值的一般准则是什么？我知道scikit learn具有插补功能（如平均值…策略或接近度）来插补缺失值（数值）。但是，人们如何处理缺失的分类价值：比如工业（石油、计算机、汽车，无），专业（学士、硕士、博士，无）

欢迎提出任何建议。
随机森林的发明者布雷曼和卡特勒提出了两种可能的策略（见）：
随机林有两种替换缺失值的方法。第一条路速度很快。如果mth变量不是分类变量，则该方法计算 j类中该变量所有值的中值，然后使用此值用于替换类中mth变量的所有缺失值 J如果mth变量是分类变量，则替换变量最多类j中频繁出现的非缺失值。这些替换值是这叫填充
替换缺失值的第二种方法在计算上更复杂价格昂贵，但性能优于第一款，即使大量丢失的数据。它仅替换中缺少的值训练集。它首先是粗略而不准确地填写缺少的值。然后它执行一个林运行并计算近亲
或者，将标签变量放在一边一分钟，您可以使用分类器中的所有特性，在具有非空值的行上训练分类器。然后使用此分类器预测“测试集”中有问题的分类变量的值。有了更完整的数据集，您现在可以返回到预测原始标签变量的值的任务。
注意，您已经声明“欢迎任何建议”，并且确实有人回答了您的问题。如果答案有用，你可以投票或接受；如果没有，您可以通过解释原因来帮助海报。