Scikit learn scikit-随机森林分类特征_Scikit Learn_Random Forest_Categorical Data

Scikit learn scikit-随机森林分类特征

scikit-learn

Scikit learn scikit-随机森林分类特征,scikit-learn,random-forest,categorical-data,Scikit Learn,Random Forest,Categorical Data,我的数据有很多分类特征。我用Dict_矢量器对它们进行编码 For example df['color']=['green','blue','white'] df['size']=['small','big','medium'] . 我使用随机森林算法。当我检查特征重要性的值时，我会得到每个类别的不同值。绿色=2.45*10^-2 蓝色=6.2*10^-3，依此类推难道所有编码的类别值不应该具有相同的特征重要性值吗。就像所有类别的颜色都具有相同的重要性，所有大小值都具有相同的重要性？

我的数据有很多分类特征。我用Dict_矢量器对它们进行编码

 For example df['color']=['green','blue','white']
 df['size']=['small','big','medium']  .

我使用随机森林算法。当我检查特征重要性的值时，我会得到每个类别的不同值。绿色=2.45*10^-2 蓝色=6.2*10^-3，依此类推

难道所有编码的类别值不应该具有相同的特征重要性值吗。就像所有类别的颜色都具有相同的重要性，所有大小值都具有相同的重要性？有没有一种方法可以明确定义特征的重要性？

注意：我理解

当您对分类数据进行二值化时，会将单个要素转换为多个要素。如果分类值以不同方式分割目标变量，则它们将具有不同的特征重要性。因此，要回答您的问题，不，二进制分类数据不应该具有相同的特征重要性

假设您的类别为“红色”、“蓝色”、“绿色”，目标变量为二进制

“is ketchup”=0或1

。在这种情况下，“绿色”的正值表示它不是番茄酱，但值为零并不意味着它是番茄酱，因为它仍然可能是“蓝色”（因此不是番茄酱）。因此，“红色”特征的重要性高于“绿色”或“蓝色”特征，因为它能更好地分割“is ketchup”目标变量

请注意，

scikit learn

中的决策树可以处理数字和分类数据，因此，如果您不想，实际上不需要对数据进行二值化。

当您对分类数据进行二值化时，您可以将单个特征转换为多个特征。如果分类值以不同方式分割目标变量，则它们将具有不同的特征重要性。因此，要回答您的问题，不，二进制分类数据不应该具有相同的特征重要性

假设您的类别为“红色”、“蓝色”、“绿色”，目标变量为二进制

“is ketchup”=0或1

请注意，

scikit-learn

中的决策树可以处理数字和分类数据，因此如果您不想，实际上不需要对数据进行二值化。

有没有一种方法可以将它们作为类别而不是功能使用？颜色和大小都是特征，但它们的值只是类别。是的，

scikit learn

中的决策树可以处理数字和分类数据，因此如果不想，实际上不需要对数据进行二值化。我在决策树中使用什么参数来指示列是分类数据？另外，RF是多决策树。有没有一种方法可以将分类数据用于RFP？有没有一种方法可以仅将它们用作类别而不是特性？颜色和大小都是特征，但它们的值只是类别。是的，

scikit learn

中的决策树可以处理数字和分类数据，因此如果不想，实际上不需要对数据进行二值化。我在决策树中使用什么参数来指示列是分类数据？另外，RF是多决策树。有没有一种方法可以将分类数据用于RF