Machine learning 如果每次迭代都丢弃模型,交叉验证的目的是什么

Machine learning 如果每次迭代都丢弃模型,交叉验证的目的是什么,machine-learning,artificial-intelligence,analytics,data-science,cross-validation,Machine Learning,Artificial Intelligence,Analytics,Data Science,Cross Validation,在交叉验证中,比如说k-fold,每次迭代我们基本上都从scrach创建新的模型-我们丢弃先前的评分模型,并基于不同的训练集创建一个新的模型 我们都知道,模型的优势在于它所训练的数据,当然还有它的超参数 所以我的问题是-如果模型一直在变化,得分的意义是什么 交叉验证后,我们不取模型值的平均值。。只是计算不再存在的模型分数的平均值。 我显然错过了一些东西,但除了从非常高的角度选择超参数和maby作为最适合模型的指示之外,我看不到交叉验证的好处。您进行交叉验证,以估计您的模型在看不见的数据上的表现。

在交叉验证中,比如说k-fold,每次迭代我们基本上都从scrach创建新的模型-我们丢弃先前的评分模型,并基于不同的训练集创建一个新的模型

我们都知道,模型的优势在于它所训练的数据,当然还有它的超参数

所以我的问题是-如果模型一直在变化,得分的意义是什么

交叉验证后,我们不取模型值的平均值。。只是计算不再存在的模型分数的平均值。
我显然错过了一些东西,但除了从非常高的角度选择超参数和maby作为最适合模型的指示之外,我看不到交叉验证的好处。

您进行交叉验证,以估计您的模型在看不见的数据上的表现。关键是看它的概括性有多好

一旦你完成了交叉验证并且对你的分数感到满意,你就可以在你的整个训练集上重新训练,然后看看它在你的测试集上表现如何。如果您的测试集与您的列车集具有相似的分布,并且您正确地进行了交叉验证,那么您应该获得相似的分数


你不能从一开始就使用测试集的原因是你只能使用一次测试集-如果你对测试集的分数不满意,你不能回去再培训,否则你就有可能过度拟合。

交叉验证是一种非常有用的统计方法,机器学习中经常使用比较和选择好的模型

但您可能会错过什么时候应该使用交叉验证

那么,如果有两个模型使用不同的算法,或者对特性工程进行了一些修改,或者进行了任何敏感的修改,并且在测试集上执行相同的操作,那么我应该怎么做呢

这些修改中哪一个是最好的,将在我的应用程序或现实世界中表现良好

通常我们有很多模型需要比较。交叉验证可以帮助您确定应该使用其中哪一个模型,因为交叉验证可以在多个场景和不同的测试输入中匹配模型


i、 e.如果您使用的是k倍交叉验证,那么您现在有k批测试集,用于测量您的模型在每批测试集中的性能

这是我不理解的部分——我们得到的每个迭代模型都有一点不同,因为我们使用不同的训练集。可能第一个模型在看不见的数据上表现出色,因为它使用了特定的测试集,而最后一个模型没有。。所以我想买第一个。但是我们从简历过程中得到的唯一东西是平均分数。。但是现在我又想起来了——也许我想错了。。CV的目的不是为了得到预测模型准确度的真实分数?