Machine learning 何时使用k倍交叉验证,何时使用分割百分比?

Machine learning 何时使用k倍交叉验证,何时使用分割百分比?,machine-learning,artificial-intelligence,cross-validation,supervised-learning,Machine Learning,Artificial Intelligence,Cross Validation,Supervised Learning,哪种数据集从使用k-fold验证中获益最大?它通常比标准分割百分比更好吗?简单的回答是:小的 更长的版本-当单个随机数据样本不代表底层分布的样本时,使用k倍分割(或自举等)。数据集的大小只是一个启发,它试图捕捉这种现象。问题是,你的发行版越复杂,“足够大”就越大。因此,如果您的问题是二维分类,您可以几乎完美地拟合线性模型,那么您可能可以使用单个随机分割,即使您只有几个点。另一方面,如果您的数据来自极其复杂的分布,这违反了iid假设等,则需要进行大量拆分才能恢复可靠的统计数据 那么如何决定呢?一般

哪种数据集从使用k-fold验证中获益最大?它通常比标准分割百分比更好吗?

简单的回答是:小的

更长的版本-当单个随机数据样本不代表底层分布的样本时,使用k倍分割(或自举等)。数据集的大小只是一个启发,它试图捕捉这种现象。问题是,你的发行版越复杂,“足够大”就越大。因此,如果您的问题是二维分类,您可以几乎完美地拟合线性模型,那么您可能可以使用单个随机分割,即使您只有几个点。另一方面,如果您的数据来自极其复杂的分布,这违反了iid假设等,则需要进行大量拆分才能恢复可靠的统计数据


那么如何决定呢?一般来说,如果你负担得起的话,做k倍的cv(计算时间)。您不会以这种方式损害您的流程。另一种统计上更合理的方法是收集数据的多个统计数据,例如,每个分割的边际分布(每个特征上的投影)的KDE,以及整个数据集,并比较这三个数据。如果它们几乎相同,则最好使用这种分割。若你们能注意到(无论是视觉上,还是通过统计测试)这些分布有显著差异,那个么你们必须添加k倍cv(或其他减少结果差异的技术)

小数据集-也是的,通常更好。