Machine learning k-折叠交叉验证的最佳折叠数

Machine learning k-折叠交叉验证的最佳折叠数,machine-learning,optimization,cross-validation,hyperparameters,Machine Learning,Optimization,Cross Validation,Hyperparameters,有谁能推荐一些更正式的方法来确定最佳折叠次数,比可能的最大折叠次数少,并且不需要耗时的模拟(可以预测的是,测试的k值范围的顶部是最好的) 更多信息 从理论和模拟中我们知道,模型度量通常随着折叠次数(k)的增加而增加(有一定的差异)。因此,在给定数据大小和时间限制的情况下,使用任何小于最大折叠次数的方法都是次优的 因此,使用5倍或10倍的标准默认值实际上也是超参数优化的一个例子,但是一个共同执行的例子,因此它们不需要预先优化,而是根据模型训练的时间限制进行切换。作为一种特殊情况,在耗时的培训设置(

有谁能推荐一些更正式的方法来确定最佳折叠次数,比可能的最大折叠次数少,并且不需要耗时的模拟(可以预测的是,测试的
k
值范围的顶部是最好的)

更多信息

从理论和模拟中我们知道,模型度量通常随着折叠次数(
k
)的增加而增加(有一定的差异)。因此,在给定数据大小和时间限制的情况下,使用任何小于最大折叠次数的方法都是次优的


因此,使用5倍或10倍的标准默认值实际上也是超参数优化的一个例子,但是一个共同执行的例子,因此它们不需要预先优化,而是根据模型训练的时间限制进行切换。作为一种特殊情况,在耗时的培训设置(如深度学习)中,没有时间进行多次重复,因此通常只使用单个验证集。

可以从PCA中借用一个不完美的解决方案-这就是所谓的拐点,但它需要形式化,它需要模拟我们想要避免的折叠次数

例如,根据我对数百个模型的模拟(sklearn乳腺癌数据分类),最佳肘点大约为3-5倍: