Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 分类特征编码作为Scikit学习的枚举_Python_Encoding_Enums_Scikit Learn_H2o - Fatal编程技术网

Python 分类特征编码作为Scikit学习的枚举

Python 分类特征编码作为Scikit学习的枚举,python,encoding,enums,scikit-learn,h2o,Python,Encoding,Enums,Scikit Learn,H2o,我目前正试图为Scikit Learns的随机森林模型(回归)预处理一个非常大的数据集,其中包含许多分类特征。分类数据的性质要求不通过编码方案添加任何有序性。 H2o-ML框架()提供了enum-编码,非常适合我的数据。然而,我依赖于Scikit森林 有人知道Scikit学习模型的一些enum-编码吗?(一个热编码不是选项) 提前谢谢 只有标签编码,以及sklearn中提供的OHE。但是,它并没有提供您想要的功能,因为类别仅编码为整数,我相信这仅对有序类别有意义。我相信,在sklearn中,实现

我目前正试图为Scikit Learns的随机森林模型(回归)预处理一个非常大的数据集,其中包含许多分类特征。分类数据的性质要求不通过编码方案添加任何有序性。 H2o-ML框架()提供了
enum
-编码,非常适合我的数据。然而,我依赖于Scikit森林

有人知道Scikit学习模型的一些
enum
-编码吗?(一个热编码不是选项)


提前谢谢

只有标签编码,以及sklearn中提供的OHE。但是,它并没有提供您想要的功能,因为类别仅编码为整数,我相信这仅对有序类别有意义。我相信,在sklearn中,实现这样的枚举类别处理取决于模型(因为sklearn中有许多模型,其中大多数都无法从这种编码中获益)

我认为,声称它在内部实现了这种类别处理,但我实际上不能100%确定这是真的。其优点是,它们同时具有RF和GBM树生成器,因此您可以轻松地在它们之间切换,并且比sklearn实现更快

还要注意的是,它有一个用于内部类别编码的reach工具包,但到目前为止,我对它没有任何经验。

不确定enum编码(实际上从未听说过),但请参阅,或者,正如前面提到的,CatBoost有许多基本的ti高级内置编码方法。