Machine learning 最大深度与估计器数量或轮数之间的平衡

Machine learning 最大深度与估计器数量或轮数之间的平衡,machine-learning,xgboost,Machine Learning,Xgboost,这是xgb和梯度提升的理论问题。如何找出最大深度和数量轮或n轮估计量的最佳平衡。显然,更大的最大深度会创建复杂的模型,这在boosting中是不推荐的,但数百轮的boosting也会导致过度拟合训练数据。假设CV为最大深度5和最大深度15和最大深度100给出了相同的平均值/std,那么在为未知数据发布模型时,我应该使用哪一个?理论上,我们可以为这些模型提供泛化边界,但问题是-它们非常松散。因此,较小的上限并不能真正保证更好的分数。在实践中,最好的方法是使你的概括性估计更可靠-你使用的是10-CV

这是xgb和梯度提升的理论问题。如何找出最大深度和数量轮或n轮估计量的最佳平衡。显然,更大的最大深度会创建复杂的模型,这在boosting中是不推荐的,但数百轮的boosting也会导致过度拟合训练数据。假设CV为最大深度5和最大深度15和最大深度100给出了相同的平均值/std,那么在为未知数据发布模型时,我应该使用哪一个?

理论上,我们可以为这些模型提供泛化边界,但问题是-它们非常松散。因此,较小的上限并不能真正保证更好的分数。在实践中,最好的方法是使你的概括性估计更可靠-你使用的是10-CV?使用10x10 CV(10CV的十次随机洗牌),如果仍然没有给出答案,则使用100。总有一天你会赢的。此外,如果你真的要把模型公诸于众,也许期望值不是最好的度量?CV通常报告平均值(期望值)——因此,不要只看这个——而是看得到的结果的整个光谱。具有相同平均值和不同std的两个值清楚地显示了要选择的内容。当平均数和性传播疾病都相同时,你们可以查看分数的最小值(这将捕获“最坏情况”场景),等等


总而言之:仔细观察分数,而不仅仅是平均值——并重复多次评估,以使其可靠。

理论上可以为这些模型提供泛化范围,但问题是——它们非常松散。因此,较小的上限并不能真正保证更好的分数。在实践中,最好的方法是使你的概括性估计更可靠-你使用的是10-CV?使用10x10 CV(10CV的十次随机洗牌),如果仍然没有给出答案,则使用100。总有一天你会赢的。此外,如果你真的要把模型公诸于众,也许期望值不是最好的度量?CV通常报告平均值(期望值)——因此,不要只看这个——而是看得到的结果的整个光谱。具有相同平均值和不同std的两个值清楚地显示了要选择的内容。当平均数和性传播疾病都相同时,你们可以查看分数的最小值(这将捕获“最坏情况”场景),等等


总而言之:仔细查看分数,而不仅仅是平均值,并重复多次评估,以使其可靠。

谢谢。我将以此作为答案。我想知道在每一轮之后,对随机样本(可能是数据的10%)的误差进行监控是否会有所帮助。也可能是验证损失在每一轮之后的变化。假设我(通过在xgboost中提前停止200次,我不知道如何在sklearn中进行)绘制验证损失在每次减少后增加的轮数,我可以肯定地说,在所有其他行下都有该行的模型会更好吗?这样的曲线下的区域不会给你一个好的选择器,因为最后你只使用了一个最终的模型,所以之前它是否是一个坏的模型并不重要。嗨,我没有考虑面积。更像是这样——假设模型1有这些值,我并没有考虑面积。我正在绘制减少错误所需的轮数与轮数。Ex(对于最大深度15)1-0,2-0,3-0,4-1,6-1,8-2,11-2,14-2,17-3。。。51 inf(即第51轮是测试评估的最低值)。另一个ex可能是(对于较低的最大深度)1-0,2-0。。。。。99-0、100-1103-1105-0106-0107-3111-3等等,直到可能是150-INF。如果我绘制这两条线(以比例方式),第二条线仍然在第一条线下-这是否意味着它是一个更好的模型?逻辑是“一个模型减少了几轮测试后的评估可能会在培训中泄露课堂信息”?谢谢。我将以此作为答案。我想知道在每一轮之后,对随机样本(可能是数据的10%)的误差进行监控是否会有所帮助。也可能是验证损失在每一轮之后的变化。假设我(通过在xgboost中提前停止200次,我不知道如何在sklearn中进行)绘制验证损失在每次减少后增加的轮数,我可以肯定地说,在所有其他行下都有该行的模型会更好吗?这样的曲线下的区域不会给你一个好的选择器,因为最后你只使用了一个最终的模型,所以之前它是否是一个坏的模型并不重要。嗨,我没有考虑面积。更像是这样——假设模型1有这些值,我并没有考虑面积。我正在绘制减少错误所需的轮数与轮数。Ex(对于最大深度15)1-0,2-0,3-0,4-1,6-1,8-2,11-2,14-2,17-3。。。51 inf(即第51轮是测试评估的最低值)。另一个ex可能是(对于较低的最大深度)1-0,2-0。。。。。99-0、100-1103-1105-0106-0107-3111-3等等,直到可能是150-INF。如果我绘制这两条线(以比例方式),第二条线仍然在第一条线下-这是否意味着它是一个更好的模型?逻辑是“一个模型在几轮之后减少了测试评估,可能会在训练中泄露课堂信息”?