Machine learning 基于基尼指数的决策树

Machine learning 基于基尼指数的决策树,machine-learning,classification,decision-tree,Machine Learning,Classification,Decision Tree,我正在尝试实现基于伪规则的决策树算法 但是,我不明白为什么第一个节点应该是outlook Outlook的基尼指数不应该是1-(5/14)^2-(5/14)^2-(4/14)^2=0.663265306吗, 基尼湿度指数be=1-(4/14)^2-(6/14)^2-(4/14)^2=0.653061224 由于基尼指数代表了属性的杂质,因此选择基尼指数较低的属性更为合理 我找到基尼指数的方法是错误的还是我应该知道其他一些事情 资料 基尼系数是衡量纯度的一种标准。对于两个类别,相等分割的最小值为

我正在尝试实现基于伪规则的决策树算法

但是,我不明白为什么第一个节点应该是outlook

Outlook的基尼指数不应该是1-(5/14)^2-(5/14)^2-(4/14)^2=0.663265306吗, 基尼湿度指数be=1-(4/14)^2-(6/14)^2-(4/14)^2=0.653061224

由于基尼指数代表了属性的杂质,因此选择基尼指数较低的属性更为合理

我找到基尼指数的方法是错误的还是我应该知道其他一些事情

资料


基尼系数是衡量纯度的一种标准。对于两个类别,相等分割的最小值为0.5。然后,基尼指数随着任一阶层比例的增加而增加。当基尼度量值为1时,则集合在一个或另一个类别中是100%纯的


决策树的目的是最大限度地提高孩子的纯洁性。毕竟,这就是模型“学习”识别类的方式——通过分离它们。因此,你想要的是较大的基尼指数,而不是较小的。根据你的计算,这将是前景而不是湿度。

基尼指数不是衡量杂质的指标吗?@Lebanner。纯度,杂质。一个尺度就是另一个尺度。更大的基尼值意味着更高的纯度,决策树算法努力使叶子的纯度达到最大(或者,如果你愿意的话,尽量减少杂质)。我试图计算第三个属性的基尼指数,得到了0.850062474,这是最高的。。。你认为我做错了什么?
Rainy   Hot High    FALSE   No
Rainy   Hot High    TRUE    No
Overcast    Hot High    FALSE   Yes
Sunny   Mild    High    FALSE   Yes
Sunny   Cool    Normal  FALSE   Yes
Sunny   Cool    Normal  TRUE    No
Overcast    Cool    Normal  TRUE    Yes
Rainy   Mild    High    FALSE   No
Rainy   Cool    Normal  FALSE   Yes
Sunny   Mild    Normal  FALSE   Yes
Rainy   Mild    Normal  TRUE    Yes
Overcast    Mild    High    TRUE    Yes
Overcast    Hot Normal  FALSE   Yes
Sunny   Mild    High    TRUE    No