R 基尼的可变重要性/平均下降率如何>;。5.

R 基尼的可变重要性/平均下降率如何>;。5.,r,random-forest,gini,R,Random Forest,Gini,我目前正在做一个项目,我使用随机森林。我想知道所有协变量的特征重要性,并想为此使用meansdecreaseGini 我真的不明白为什么会有大于0.5的值。基尼指数不能大于0.5,因此下降幅度也不应大于0.5。当您对使用特定协变量的森林节点中的所有值进行平均时,基尼值的平均下降不能大于0.5。谁能说,我的思维错误在哪里 以下是一个代码示例,meansdecreaseGini的结果远大于0.5: install.packages("randomForest") library(randomFore

我目前正在做一个项目,我使用随机森林。我想知道所有协变量的特征重要性,并想为此使用
meansdecreaseGini

我真的不明白为什么会有大于0.5的值。基尼指数不能大于0.5,因此下降幅度也不应大于0.5。当您对使用特定协变量的森林节点中的所有值进行平均时,基尼值的平均下降不能大于0.5。谁能说,我的思维错误在哪里

以下是一个代码示例,
meansdecreaseGini
的结果远大于0.5:

install.packages("randomForest")
library(randomForest)

set.seed(1)
a <- as.factor(c(rep(1, 20), rep(0, 30)))
b <- c(rnorm(20, 5, 2), rnorm(30, 4, 1))
c <- c(rnorm(25, 0, 1), rnorm(25, 1, 2))
data <- data.frame(a = a, b = b, c = c)

rf <- randomForest(data = data, a ~ b + c, importance = T, ntree = 300)
importance(rf)
install.packages(“随机林”)
图书馆(森林)
种子(1)

a什么使你认为基尼指数不能大于0.5?如果目标有两个等级,一个等级有n/2,另一个等级有n/2,基尼指数是2*(n/2)/2*(1-(n/2)/n)=2*0.5*0.5=0.5。“最差”分布。对不对?