Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 如何使用交叉验证方法建立决策树?_Algorithm_Decision Tree_Cross Validation - Fatal编程技术网

Algorithm 如何使用交叉验证方法建立决策树?

Algorithm 如何使用交叉验证方法建立决策树?,algorithm,decision-tree,cross-validation,Algorithm,Decision Tree,Cross Validation,我很想知道,当我们使用交叉验证时,决策树是如何生成的。在教程中,我读过交叉验证,试图找到最佳的准确性或最低的错误率,但决策树是如何生成的还不清楚 例如,在K=10时,是否从其他10棵树中选择最好的树 或者它尝试选择树中的所有冗余边 我的意思是我不明白最后一棵树是如何由另外10棵树组成的 问候。我相信这是一个类似的问题: 交叉验证用于更好地评估任何性能度量,以评估ML算法的性能。当K=10时,您将在不同的数据分割上重复10次树构建算法(例如ID3),每次您在9个部分上训练模型并评估其余部分(验证集

我很想知道,当我们使用交叉验证时,决策树是如何生成的。在教程中,我读过交叉验证,试图找到最佳的准确性或最低的错误率,但决策树是如何生成的还不清楚

例如,在K=10时,是否从其他10棵树中选择最好的树

或者它尝试选择树中的所有冗余边

我的意思是我不明白最后一棵树是如何由另外10棵树组成的


问候。

我相信这是一个类似的问题:

交叉验证用于更好地评估任何性能度量,以评估ML算法的性能。当K=10时,您将在不同的数据分割上重复10次树构建算法(例如ID3),每次您在9个部分上训练模型并评估其余部分(验证集)的性能。然后可以证明,作为性能估计,10组的平均值现在将不那么有偏差

假设我们在训练和验证集中拆分数据集。训练集上的错误将过于乐观,因为零件可能是由于过度装配造成的。验证错误会更好,但很糟糕,我们不能使用验证集中的信息来训练我们的模型,尤其是当我们的数据可用性有限时。您可以将交叉验证视为一种巧妙的方法,它仍然可以利用所有可用的数据。

不是一种寻找最佳模型的方法,而是“对模型预测性能进行更准确的估计”

因此,这并不意味着输出尽可能好的决策树,但您可以例如以更高的统计显著性相互评估不同的超参数设置(导致不同的决策树)