Machine learning 交叉验证是如何进行测试的?

Machine learning 交叉验证是如何进行测试的?,machine-learning,Machine Learning,因此,我在理解交叉验证在模型构建的机器学习中是如何工作的方面遇到了一些困难 假设我有一个包含100个样本的数据集,我执行了10次交叉验证 据我所知,我将数据集分为10组,其中9组用于其中一组的训练和测试 最后,我将有10个不同的分类器,以及整个数据集的预测结果 那么,我将如何使用这些结果在新的第101个样本上进行测试呢 之前有人告诉我,这10个不同的分类器只是取平均值,结果用于在新的数据点上进行测试,但这到底是如何做到的?是否所有10个分类器都在新的数据点上运行,并且最后的置信值取平均值以得到用

因此,我在理解交叉验证在模型构建的机器学习中是如何工作的方面遇到了一些困难

假设我有一个包含100个样本的数据集,我执行了10次交叉验证

据我所知,我将数据集分为10组,其中9组用于其中一组的训练和测试

最后,我将有10个不同的分类器,以及整个数据集的预测结果

那么,我将如何使用这些结果在新的第101个样本上进行测试呢


之前有人告诉我,这10个不同的分类器只是取平均值,结果用于在新的数据点上进行测试,但这到底是如何做到的?是否所有10个分类器都在新的数据点上运行,并且最后的置信值取平均值以得到用于分类的最终值?或者,生成的10个分类器是否以某种方式聚合为一个?我原以为这是第二种情况,但现在考虑到这一点,我不确定您将如何“组合”不同的分类器。

交叉验证用于验证您的学习算法概括未知数据的能力,即,如果您的交叉验证在您的测试中给出了良好的结果

一旦建立了该模型,您可以使用整个训练集训练模型并将其应用于新数据


当你平均10个分类器在不同数据上训练时,你所描述的内容听起来有点像你将不同的弱学习者组合成一个强学习者。请注意,这确实意味着不同的学习者,而不是一个接受过不同数据培训的学习者。

验证用于模型选择。如果有M个canditate模型,分类错误最小的模型是M,其中

0<m<=M
,在您的情况下,K=N/10

交叉验证用于将获得的10个验证误差取平均值作为评估值


一旦确定了模型m,您将在培训过程中使用所有样本数据

好的,假设我使用Weka生成贝叶斯网络分类器。那么,通过交叉验证设置获得输出的模型意味着什么?这是自举产生的吗?
sqrt(log(M)/K)