Python 分类特征编码作为Scikit学习的枚举
我目前正试图为Scikit Learns的随机森林模型(回归)预处理一个非常大的数据集,其中包含许多分类特征。分类数据的性质要求不通过编码方案添加任何有序性。 H2o-ML框架()提供了Python 分类特征编码作为Scikit学习的枚举,python,encoding,enums,scikit-learn,h2o,Python,Encoding,Enums,Scikit Learn,H2o,我目前正试图为Scikit Learns的随机森林模型(回归)预处理一个非常大的数据集,其中包含许多分类特征。分类数据的性质要求不通过编码方案添加任何有序性。 H2o-ML框架()提供了enum-编码,非常适合我的数据。然而,我依赖于Scikit森林 有人知道Scikit学习模型的一些enum-编码吗?(一个热编码不是选项) 提前谢谢 只有标签编码,以及sklearn中提供的OHE。但是,它并没有提供您想要的功能,因为类别仅编码为整数,我相信这仅对有序类别有意义。我相信,在sklearn中,实现
enum
-编码,非常适合我的数据。然而,我依赖于Scikit森林
有人知道Scikit学习模型的一些enum
-编码吗?(一个热编码不是选项)
提前谢谢 只有标签编码,以及sklearn中提供的OHE。但是,它并没有提供您想要的功能,因为类别仅编码为整数,我相信这仅对有序类别有意义。我相信,在sklearn中,实现这样的枚举类别处理取决于模型(因为sklearn中有许多模型,其中大多数都无法从这种编码中获益) 我认为,声称它在内部实现了这种类别处理,但我实际上不能100%确定这是真的。其优点是,它们同时具有RF和GBM树生成器,因此您可以轻松地在它们之间切换,并且比sklearn实现更快 还要注意的是,它有一个用于内部类别编码的reach工具包,但到目前为止,我对它没有任何经验。不确定enum编码(实际上从未听说过),但请参阅,或者,正如前面提到的,CatBoost有许多基本的ti高级内置编码方法。