Scikit learn scikit-随机森林分类特征

Scikit learn scikit-随机森林分类特征,scikit-learn,random-forest,categorical-data,Scikit Learn,Random Forest,Categorical Data,我的数据有很多分类特征。我用Dict_矢量器对它们进行编码 For example df['color']=['green','blue','white'] df['size']=['small','big','medium'] . 我使用随机森林算法。当我检查特征重要性的值时,我会得到每个类别的不同值。 绿色=2.45*10^-2 蓝色=6.2*10^-3,依此类推 难道所有编码的类别值不应该具有相同的特征重要性值吗。就像所有类别的颜色都具有相同的重要性,所有大小值都具有相同的重要性?

我的数据有很多分类特征。我用Dict_矢量器对它们进行编码

 For example df['color']=['green','blue','white']
 df['size']=['small','big','medium']  .
我使用随机森林算法。当我检查特征重要性的值时,我会得到每个类别的不同值。 绿色=2.45*10^-2 蓝色=6.2*10^-3,依此类推

难道所有编码的类别值不应该具有相同的特征重要性值吗。就像所有类别的颜色都具有相同的重要性,所有大小值都具有相同的重要性? 有没有一种方法可以明确定义特征的重要性?
注意:我理解

当您对分类数据进行二值化时,会将单个要素转换为多个要素。如果分类值以不同方式分割目标变量,则它们将具有不同的特征重要性。因此,要回答您的问题,不,二进制分类数据不应该具有相同的特征重要性

假设您的类别为“红色”、“蓝色”、“绿色”,目标变量为二进制
“is ketchup”=0或1
。在这种情况下,“绿色”的正值表示它不是番茄酱,但值为零并不意味着它是番茄酱,因为它仍然可能是“蓝色”(因此不是番茄酱)。因此,“红色”特征的重要性高于“绿色”或“蓝色”特征,因为它能更好地分割“is ketchup”目标变量


请注意,
scikit learn
中的决策树可以处理数字和分类数据,因此,如果您不想,实际上不需要对数据进行二值化。

当您对分类数据进行二值化时,您可以将单个特征转换为多个特征。如果分类值以不同方式分割目标变量,则它们将具有不同的特征重要性。因此,要回答您的问题,不,二进制分类数据不应该具有相同的特征重要性

假设您的类别为“红色”、“蓝色”、“绿色”,目标变量为二进制
“is ketchup”=0或1
。在这种情况下,“绿色”的正值表示它不是番茄酱,但值为零并不意味着它是番茄酱,因为它仍然可能是“蓝色”(因此不是番茄酱)。因此,“红色”特征的重要性高于“绿色”或“蓝色”特征,因为它能更好地分割“is ketchup”目标变量


请注意,
scikit-learn
中的决策树可以处理数字和分类数据,因此如果您不想,实际上不需要对数据进行二值化。

有没有一种方法可以将它们作为类别而不是功能使用?颜色和大小都是特征,但它们的值只是类别。是的,
scikit learn
中的决策树可以处理数字和分类数据,因此如果不想,实际上不需要对数据进行二值化。我在决策树中使用什么参数来指示列是分类数据?另外,RF是多决策树。有没有一种方法可以将分类数据用于RFP?有没有一种方法可以仅将它们用作类别而不是特性?颜色和大小都是特征,但它们的值只是类别。是的,
scikit learn
中的决策树可以处理数字和分类数据,因此如果不想,实际上不需要对数据进行二值化。我在决策树中使用什么参数来指示列是分类数据?另外,RF是多决策树。有没有一种方法可以将分类数据用于RF