Machine learning 最大深度与估计器数量或轮数之间的平衡_Machine Learning_Xgboost

Machine learning 最大深度与估计器数量或轮数之间的平衡

machine-learning

Machine learning 最大深度与估计器数量或轮数之间的平衡,machine-learning,xgboost,Machine Learning,Xgboost,这是xgb和梯度提升的理论问题。如何找出最大深度和数量轮或n轮估计量的最佳平衡。显然，更大的最大深度会创建复杂的模型，这在boosting中是不推荐的，但数百轮的boosting也会导致过度拟合训练数据。假设CV为最大深度5和最大深度15和最大深度100给出了相同的平均值/std，那么在为未知数据发布模型时，我应该使用哪一个？理论上，我们可以为这些模型提供泛化边界，但问题是-它们非常松散。因此，较小的上限并不能真正保证更好的分数。在实践中，最好的方法是使你的概括性估计更可靠-你使用的是10-CV

这是xgb和梯度提升的理论问题。如何找出最大深度和数量轮或n轮估计量的最佳平衡。显然，更大的最大深度会创建复杂的模型，这在boosting中是不推荐的，但数百轮的boosting也会导致过度拟合训练数据。假设CV为最大深度5和最大深度15和最大深度100给出了相同的平均值/std，那么在为未知数据发布模型时，我应该使用哪一个？

理论上，我们可以为这些模型提供泛化边界，但问题是-它们非常松散。因此，较小的上限并不能真正保证更好的分数。在实践中，最好的方法是使你的概括性估计更可靠-你使用的是10-CV？使用10x10 CV（10CV的十次随机洗牌），如果仍然没有给出答案，则使用100。总有一天你会赢的。此外，如果你真的要把模型公诸于众，也许期望值不是最好的度量？CV通常报告平均值（期望值）——因此，不要只看这个——而是看得到的结果的整个光谱。具有相同平均值和不同std的两个值清楚地显示了要选择的内容。当平均数和性传播疾病都相同时，你们可以查看分数的最小值（这将捕获“最坏情况”场景），等等

总而言之：仔细观察分数，而不仅仅是平均值——并重复多次评估，以使其可靠。

理论上可以为这些模型提供泛化范围，但问题是——它们非常松散。因此，较小的上限并不能真正保证更好的分数。在实践中，最好的方法是使你的概括性估计更可靠-你使用的是10-CV？使用10x10 CV（10CV的十次随机洗牌），如果仍然没有给出答案，则使用100。总有一天你会赢的。此外，如果你真的要把模型公诸于众，也许期望值不是最好的度量？CV通常报告平均值（期望值）——因此，不要只看这个——而是看得到的结果的整个光谱。具有相同平均值和不同std的两个值清楚地显示了要选择的内容。当平均数和性传播疾病都相同时，你们可以查看分数的最小值（这将捕获“最坏情况”场景），等等

总而言之：仔细查看分数，而不仅仅是平均值，并重复多次评估，以使其可靠。

谢谢。我将以此作为答案。我想知道在每一轮之后，对随机样本（可能是数据的10%）的误差进行监控是否会有所帮助。也可能是验证损失在每一轮之后的变化。假设我（通过在xgboost中提前停止200次，我不知道如何在sklearn中进行）绘制验证损失在每次减少后增加的轮数，我可以肯定地说，在所有其他行下都有该行的模型会更好吗？这样的曲线下的区域不会给你一个好的选择器，因为最后你只使用了一个最终的模型，所以之前它是否是一个坏的模型并不重要。嗨，我没有考虑面积。更像是这样——假设模型1有这些值，我并没有考虑面积。我正在绘制减少错误所需的轮数与轮数。Ex（对于最大深度15）1-0,2-0,3-0,4-1,6-1,8-2,11-2,14-2,17-3。。。51 inf（即第51轮是测试评估的最低值）。另一个ex可能是（对于较低的最大深度）1-0,2-0。。。。。99-0、100-1103-1105-0106-0107-3111-3等等，直到可能是150-INF。如果我绘制这两条线（以比例方式），第二条线仍然在第一条线下-这是否意味着它是一个更好的模型？逻辑是“一个模型减少了几轮测试后的评估可能会在培训中泄露课堂信息”？谢谢。我将以此作为答案。我想知道在每一轮之后，对随机样本（可能是数据的10%）的误差进行监控是否会有所帮助。也可能是验证损失在每一轮之后的变化。假设我（通过在xgboost中提前停止200次，我不知道如何在sklearn中进行）绘制验证损失在每次减少后增加的轮数，我可以肯定地说，在所有其他行下都有该行的模型会更好吗？这样的曲线下的区域不会给你一个好的选择器，因为最后你只使用了一个最终的模型，所以之前它是否是一个坏的模型并不重要。嗨，我没有考虑面积。更像是这样——假设模型1有这些值，我并没有考虑面积。我正在绘制减少错误所需的轮数与轮数。Ex（对于最大深度15）1-0,2-0,3-0,4-1,6-1,8-2,11-2,14-2,17-3。。。51 inf（即第51轮是测试评估的最低值）。另一个ex可能是（对于较低的最大深度）1-0,2-0。。。。。99-0、100-1103-1105-0106-0107-3111-3等等，直到可能是150-INF。如果我绘制这两条线（以比例方式），第二条线仍然在第一条线下-这是否意味着它是一个更好的模型？逻辑是“一个模型在几轮之后减少了测试评估，可能会在训练中泄露课堂信息”？