Tree 信息增益决策树_Tree_Decision Tree

Tree 信息增益决策树

tree

Tree 信息增益决策树,tree,decision-tree,Tree,Decision Tree,如果在相同数量的节点上有两个决策树，哪一个更好？树1：（F为假，T为真）意思是第一个更宽，但第二个更深。我知道这个问题很老，但如果你仍然对答案感兴趣，一般来说，一个较短的、更宽的树将是“更好的”。你真正需要看的是每个内部决策节点的熵和增益。熵是特定变量的不确定性或随机性的数量。例如，考虑一个带有两个类的分类器：是和否（在你的情况下是真的或假的）。如果一个特定的变量或属性，比如x有三个类YES的训练示例和三个类NO的训练示例（总共六个），则熵为1。这是因为对于这个变量，两个类的数量相等

如果在相同数量的节点上有两个决策树，哪一个更好？树1：（F为假，T为真）

意思是第一个更宽，但第二个更深。

我知道这个问题很老，但如果你仍然对答案感兴趣，一般来说，一个较短的、更宽的树将是“更好的”。你真正需要看的是每个内部决策节点的熵和增益。熵是特定变量的不确定性或随机性的数量。例如，考虑一个带有两个类的分类器：是和否（在你的情况下是真的或假的）。如果一个特定的变量或属性，比如x有三个类YES的训练示例和三个类NO的训练示例（总共六个），则熵为1。这是因为对于这个变量，两个类的数量相等，并且是您可以得到的最“混淆”的。类似地，如果x有一个特定类的所有六个训练示例，如果说是的，那么熵将是0，因为这个特定变量是纯的，因此使它成为决策树中的叶节点

熵的计算方法如下：

现在考虑收益。请注意，在决策树的每一级，我们都会选择表示该节点最佳增益的属性。增益只是通过学习随机变量x的状态所获得的熵的预期减少。增益也称为库尔贝克-莱布勒散度。增益可按以下方式计算：

< P>我知道这个问题很古老，但如果你仍然对答案感兴趣，一般来说，一个较短的、更宽的树将是“更好的”。你真正需要看的是每个内部决策节点的熵和增益。熵是特定变量的不确定性或随机性的数量。例如，考虑一个带有两个类的分类器：是和否（在你的情况下是真的或假的）。如果一个特定的变量或属性，比如x有三个类YES的训练示例和三个类NO的训练示例（总共六个），则熵为1。这是因为对于这个变量，两个类的数量相等，并且是您可以得到的最“混淆”的。类似地，如果x有一个特定类的所有六个训练示例，如果说是的，那么熵将是0，因为这个特定变量是纯的，因此使它成为决策树中的叶节点

熵的计算方法如下：

很抱歉，迟来的评论，但这不应该是熵计算的一部分中的

p_（-）

吗？很抱歉迟来的评论，但这不应该是熵计算的一部分中的

p_（-）

？