Machine learning 为什么可以'；我们是否在决策树中随机启动根节点？_Machine Learning_Decision Tree_Feature Selection_Root Node

Machine learning 为什么可以'；我们是否在决策树中随机启动根节点？

machine-learning

Machine learning 为什么可以'；我们是否在决策树中随机启动根节点？,machine-learning,decision-tree,feature-selection,root-node,Machine Learning,Decision Tree,Feature Selection,Root Node,我刚开始学习决策树。所以这些问题可能有点傻选择根节点的想法有点混乱。为什么我们不能随机选择根节点？唯一的区别似乎是，它会使决策树变得更长更复杂，但最终会得到相同的结果同样，作为决策树中特征选择过程的扩展，为什么不能使用特征和目标之间的相关性，或者卡方检验来确定从哪个特征开始呢为什么我们不能随机选择根节点我们可以，但这也可以扩展到它的子节点和该子节点的子节点，等等唯一的区别似乎是，它会使决策树变得更长更复杂，但最终会得到相同的结果树越复杂，其方差就越大，这意味着两件事：训练数据集中

我刚开始学习决策树。所以这些问题可能有点傻

选择根节点的想法有点混乱。为什么我们不能随机选择根节点？唯一的区别似乎是，它会使决策树变得更长更复杂，但最终会得到相同的结果

同样，作为决策树中特征选择过程的扩展，为什么不能使用特征和目标之间的相关性，或者卡方检验来确定从哪个特征开始呢

为什么我们不能随机选择根节点

我们可以，但这也可以扩展到它的子节点和该子节点的子节点，等等

唯一的区别似乎是，它会使决策树变得更长更复杂，但最终会得到相同的结果

树越复杂，其方差就越大，这意味着两件事：

训练数据集中的微小变化可能会极大地影响三者的形状
这超出了训练范围

这些都不是好的，即使你在每一步都根据熵或基尼杂质指数选择了一个合理的选择，你最终还是会得到比你想要的更大的三个。是的，这棵树在训练集上可能有很好的准确性，但它可能会过适合训练集

大多数使用决策树的算法都有自己的方法来克服这种差异。如果考虑简单的决策树算法本身，减少方差的方法是先对树进行修剪，然后修剪树，使树更小，过拟合。随机森林通过对大量树木进行平均来解决这个问题，同时随机限制每次必须做出决策时可以为狭缝考虑的预测因子

因此，随机选取根节点最终将导致相同的结果，但仅在训练集上，并且仅在过度拟合到树可以100%准确地预测所有内容时。但是树越适合训练集，它在测试集上的准确度就越低（一般来说），我们关心的是测试集的准确度，而不是训练集的准确度

为什么我们不能随机选择根节点

我们可以，但这也可以扩展到它的子节点和该子节点的子节点，等等

唯一的区别似乎是，它会使决策树变得更长更复杂，但最终会得到相同的结果

树越复杂，其方差就越大，这意味着两件事：

训练数据集中的微小变化可能会极大地影响三者的形状
这超出了训练范围

因此，随机选取根节点最终将导致相同的结果，但仅在训练集上，并且仅在过度拟合到树可以100%准确地预测所有内容时。但树越适合训练集，它在测试集上的准确度就越低（一般来说），我们关心的是测试集的准确度，而不是训练集的准确度。

Hey@Matus，这澄清了很多问题。谢谢你的详细解释@DavidZuhraph另一篇帖子也在陈述我所做的事情。它只是不能解释如此糟糕的初始选择的含义，它只是假设了训练集。如果你只考虑训练集（你正在使用的数据来拟合模型），那么无论初始分裂的选择，它将导致一个一致的假设（在一个无约束树的假设下）。实际上，您可以随机进行所有拆分，但这仍然会导致一致的假设，因为该算法允许拥有与数据集中样本数量相同的叶节点。@DaviedZuhraph是的，但前提是树不受约束。例如，如果在树上放置一个约束，使得如果一个节点中有（比如说）10个或更少的样本，则无法再拆分该节点，那么该约束将不再有效，并且可以根据初始拆分的选择获得不同的结果。另外，请注意，在训练集上获得一致的假设并不能告诉您模型的优点。正如我所说的，这样一个对每个样本进行单独分类的模型在训练集上会有100%的准确性，但它很可能是完全无用的。谢谢你的详细解释@DavidZuhraph另一篇帖子也在陈述我所做的事情。它只是不能解释如此糟糕的初始选择的含义，它只是假设了训练集。如果你只考虑训练集（你正在使用的数据来拟合模型），那么无论初始分裂的选择，它将导致一个一致的假设（在一个无约束树的假设下）。实际上，您可以随机进行所有拆分，这仍然会导致一致的假设，因为该算法允许具有与您的示例中的叶节点数量相同的叶节点