Machine learning 基于基尼指数的决策树
我正在尝试实现基于伪规则的决策树算法 但是,我不明白为什么第一个节点应该是outlook Outlook的基尼指数不应该是1-(5/14)^2-(5/14)^2-(4/14)^2=0.663265306吗, 基尼湿度指数be=1-(4/14)^2-(6/14)^2-(4/14)^2=0.653061224 由于基尼指数代表了属性的杂质,因此选择基尼指数较低的属性更为合理 我找到基尼指数的方法是错误的还是我应该知道其他一些事情 资料Machine learning 基于基尼指数的决策树,machine-learning,classification,decision-tree,Machine Learning,Classification,Decision Tree,我正在尝试实现基于伪规则的决策树算法 但是,我不明白为什么第一个节点应该是outlook Outlook的基尼指数不应该是1-(5/14)^2-(5/14)^2-(4/14)^2=0.663265306吗, 基尼湿度指数be=1-(4/14)^2-(6/14)^2-(4/14)^2=0.653061224 由于基尼指数代表了属性的杂质,因此选择基尼指数较低的属性更为合理 我找到基尼指数的方法是错误的还是我应该知道其他一些事情 资料 基尼系数是衡量纯度的一种标准。对于两个类别,相等分割的最小值为
基尼系数是衡量纯度的一种标准。对于两个类别,相等分割的最小值为0.5。然后,基尼指数随着任一阶层比例的增加而增加。当基尼度量值为1时,则集合在一个或另一个类别中是100%纯的
决策树的目的是最大限度地提高孩子的纯洁性。毕竟,这就是模型“学习”识别类的方式——通过分离它们。因此,你想要的是较大的基尼指数,而不是较小的。根据你的计算,这将是前景而不是湿度。基尼指数不是衡量杂质的指标吗?@Lebanner。纯度,杂质。一个尺度就是另一个尺度。更大的基尼值意味着更高的纯度,决策树算法努力使叶子的纯度达到最大(或者,如果你愿意的话,尽量减少杂质)。我试图计算第三个属性的基尼指数,得到了0.850062474,这是最高的。。。你认为我做错了什么?
Rainy Hot High FALSE No
Rainy Hot High TRUE No
Overcast Hot High FALSE Yes
Sunny Mild High FALSE Yes
Sunny Cool Normal FALSE Yes
Sunny Cool Normal TRUE No
Overcast Cool Normal TRUE Yes
Rainy Mild High FALSE No
Rainy Cool Normal FALSE Yes
Sunny Mild Normal FALSE Yes
Rainy Mild Normal TRUE Yes
Overcast Mild High TRUE Yes
Overcast Hot Normal FALSE Yes
Sunny Mild High TRUE No