Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/entity-framework/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scikit learn 处理随机森林回归器中缺失分类特征值的指南_Scikit Learn_Random Forest - Fatal编程技术网

Scikit learn 处理随机森林回归器中缺失分类特征值的指南

Scikit learn 处理随机森林回归器中缺失分类特征值的指南,scikit-learn,random-forest,Scikit Learn,Random Forest,当使用随机森林回归器(或任何集成学习器)时,处理缺失分类特征值的一般准则是什么?我知道scikit learn具有插补功能(如平均值…策略或接近度)来插补缺失值(数值)。但是,人们如何处理缺失的分类价值:比如工业(石油、计算机、汽车,无),专业(学士、硕士、博士,无) 欢迎提出任何建议。随机森林的发明者布雷曼和卡特勒提出了两种可能的策略(见): 随机林有两种替换缺失值的方法。第一条路 速度很快。如果mth变量不是分类变量,则该方法计算 j类中该变量所有值的中值,然后使用 此值用于替换类中mth变

当使用随机森林回归器(或任何集成学习器)时,处理缺失分类特征值的一般准则是什么?我知道scikit learn具有插补功能(如平均值…策略或接近度)来插补缺失值(数值)。但是,人们如何处理缺失的分类价值:比如工业(石油、计算机、汽车,无),专业(学士、硕士、博士,无)


欢迎提出任何建议。

随机森林的发明者布雷曼和卡特勒提出了两种可能的策略(见):

随机林有两种替换缺失值的方法。第一条路 速度很快。如果mth变量不是分类变量,则该方法计算 j类中该变量所有值的中值,然后使用 此值用于替换类中mth变量的所有缺失值 J如果mth变量是分类变量,则替换变量最多 类j中频繁出现的非缺失值。这些替换值是 这叫填充

替换缺失值的第二种方法在计算上更复杂 价格昂贵,但性能优于第一款,即使 大量丢失的数据。它仅替换中缺少的值 训练集。它首先是粗略而不准确地填写 缺少的值。然后它执行一个林运行并计算 近亲

或者,将标签变量放在一边一分钟,您可以使用分类器中的所有特性,在具有非空值的行上训练分类器。然后使用此分类器预测“测试集”中有问题的分类变量的值。有了更完整的数据集,您现在可以返回到预测原始标签变量的值的任务。

注意,您已经声明“欢迎任何建议”,并且确实有人回答了您的问题。如果答案有用,你可以投票或接受;如果没有,您可以通过解释原因来帮助海报。