Python 分类特征编码作为Scikit学习的枚举_Python_Encoding_Enums_Scikit Learn_H2o

Python 分类特征编码作为Scikit学习的枚举

python encoding enums scikit-learn

Python 分类特征编码作为Scikit学习的枚举,python,encoding,enums,scikit-learn,h2o,Python,Encoding,Enums,Scikit Learn,H2o,我目前正试图为Scikit Learns的随机森林模型（回归）预处理一个非常大的数据集，其中包含许多分类特征。分类数据的性质要求不通过编码方案添加任何有序性。 H2o-ML框架（）提供了enum-编码，非常适合我的数据。然而，我依赖于Scikit森林有人知道Scikit学习模型的一些enum-编码吗？（一个热编码不是选项）提前谢谢只有标签编码，以及sklearn中提供的OHE。但是，它并没有提供您想要的功能，因为类别仅编码为整数，我相信这仅对有序类别有意义。我相信，在sklearn中，实现

我目前正试图为Scikit Learns的随机森林模型（回归）预处理一个非常大的数据集，其中包含许多分类特征。分类数据的性质要求不通过编码方案添加任何有序性。 H2o-ML框架（）提供了

enum

-编码，非常适合我的数据。然而，我依赖于Scikit森林

有人知道Scikit学习模型的一些

enum

-编码吗？（一个热编码不是选项）

提前谢谢

只有标签编码，以及sklearn中提供的OHE。但是，它并没有提供您想要的功能，因为类别仅编码为整数，我相信这仅对有序类别有意义。我相信，在sklearn中，实现这样的枚举类别处理取决于模型（因为sklearn中有许多模型，其中大多数都无法从这种编码中获益）

我认为，声称它在内部实现了这种类别处理，但我实际上不能100%确定这是真的。其优点是，它们同时具有RF和GBM树生成器，因此您可以轻松地在它们之间切换，并且比sklearn实现更快

还要注意的是，它有一个用于内部类别编码的reach工具包，但到目前为止，我对它没有任何经验。

不确定enum编码（实际上从未听说过），但请参阅，或者，正如前面提到的，CatBoost有许多基本的ti高级内置编码方法。