Tree 信息增益决策树

Tree 信息增益决策树,tree,decision-tree,Tree,Decision Tree,如果在相同数量的节点上有两个决策树,哪一个更好? 树1: (F为假,T为真) 意思是第一个更宽,但第二个更深。 我知道这个问题很老,但如果你仍然对答案感兴趣,一般来说,一个较短的、更宽的树将是“更好的”。 你真正需要看的是每个内部决策节点的熵和增益。熵是特定变量的不确定性或随机性的数量。例如,考虑一个带有两个类的分类器:是和否(在你的情况下是真的或假的)。如果一个特定的变量或属性,比如x有三个类YES的训练示例和三个类NO的训练示例(总共六个),则熵为1。这是因为对于这个变量,两个类的数量相等

如果在相同数量的节点上有两个决策树,哪一个更好? 树1: (F为假,T为真)


意思是第一个更宽,但第二个更深。

我知道这个问题很老,但如果你仍然对答案感兴趣,一般来说,一个较短的、更宽的树将是“更好的”。 你真正需要看的是每个内部决策节点的熵和增益。熵是特定变量的不确定性或随机性的数量。例如,考虑一个带有两个类的分类器:是和否(在你的情况下是真的或假的)。如果一个特定的变量或属性,比如x有三个类YES的训练示例和三个类NO的训练示例(总共六个),则熵为1。这是因为对于这个变量,两个类的数量相等,并且是您可以得到的最“混淆”的。类似地,如果x有一个特定类的所有六个训练示例,如果说是的,那么熵将是0,因为这个特定变量是纯的,因此使它成为决策树中的叶节点

熵的计算方法如下:

现在考虑收益。请注意,在决策树的每一级,我们都会选择表示该节点最佳增益的属性。增益只是通过学习随机变量x的状态所获得的熵的预期减少。增益也称为库尔贝克-莱布勒散度。增益可按以下方式计算:


< P>我知道这个问题很古老,但如果你仍然对答案感兴趣,一般来说,一个较短的、更宽的树将是“更好的”。 你真正需要看的是每个内部决策节点的熵和增益。熵是特定变量的不确定性或随机性的数量。例如,考虑一个带有两个类的分类器:是和否(在你的情况下是真的或假的)。如果一个特定的变量或属性,比如x有三个类YES的训练示例和三个类NO的训练示例(总共六个),则熵为1。这是因为对于这个变量,两个类的数量相等,并且是您可以得到的最“混淆”的。类似地,如果x有一个特定类的所有六个训练示例,如果说是的,那么熵将是0,因为这个特定变量是纯的,因此使它成为决策树中的叶节点

熵的计算方法如下:

现在考虑收益。请注意,在决策树的每一级,我们都会选择表示该节点最佳增益的属性。增益只是通过学习随机变量x的状态所获得的熵的预期减少。增益也称为库尔贝克-莱布勒散度。增益可按以下方式计算:


很抱歉,迟来的评论,但这不应该是熵计算的一部分中的
p_(-)
吗?很抱歉迟来的评论,但这不应该是熵计算的一部分中的
p_(-)