Machine learning 为什么基于树的模型不需要对标称数据进行一次热编码?

Machine learning 为什么基于树的模型不需要对标称数据进行一次热编码?,machine-learning,model,random-forest,one-hot-encoding,boosting,Machine Learning,Model,Random Forest,One Hot Encoding,Boosting,我们通常对标称数据进行一次热编码,以便更合理地计算特征之间的距离或权重,但我经常听说基于树的模型,如随机森林或boosting模型,不需要进行一次热编码,但我搜索了互联网,不知道,有人能告诉我为什么或者给我一些材料来解释吗 但我经常听说基于树的模型,比如随机森林或boosting 模型不需要进行一次热编码 这不一定是真的,因为一些实现将对数值变量和分类变量应用不同的逻辑,所以最好为您正在使用的库适当地编码分类变量 然而,有时可以对决策树模型使用数字编码,因为它们只是寻找分割数据的位置,而不是将输

我们通常对标称数据进行一次热编码,以便更合理地计算特征之间的距离或权重,但我经常听说基于树的模型,如随机森林或boosting模型,不需要进行一次热编码,但我搜索了互联网,不知道,有人能告诉我为什么或者给我一些材料来解释吗

但我经常听说基于树的模型,比如随机森林或boosting 模型不需要进行一次热编码

这不一定是真的,因为一些实现将对数值变量和分类变量应用不同的逻辑,所以最好为您正在使用的库适当地编码分类变量


然而,有时可以对决策树模型使用数字编码,因为它们只是寻找分割数据的位置,而不是将输入乘以权重。将此与神经网络进行对比,神经网络将红色=1,蓝色=2解释为蓝色是红色的两倍,这显然不是你想要的。

谢谢,你的例子给了我一些直觉,因为决策树只是通过检查特定的输入值是否等于所选的特征值来分割样本,而不使用该值来计算重量或距离之类的东西