Machine learning 何时使用k倍交叉验证，何时使用分割百分比？_Machine Learning_Artificial Intelligence_Cross Validation_Supervised Learning

Machine learning 何时使用k倍交叉验证，何时使用分割百分比？

machine-learning artificial-intelligence

Machine learning 何时使用k倍交叉验证，何时使用分割百分比？,machine-learning,artificial-intelligence,cross-validation,supervised-learning,Machine Learning,Artificial Intelligence,Cross Validation,Supervised Learning,哪种数据集从使用k-fold验证中获益最大？它通常比标准分割百分比更好吗？简单的回答是：小的更长的版本-当单个随机数据样本不代表底层分布的样本时，使用k倍分割（或自举等）。数据集的大小只是一个启发，它试图捕捉这种现象。问题是，你的发行版越复杂，“足够大”就越大。因此，如果您的问题是二维分类，您可以几乎完美地拟合线性模型，那么您可能可以使用单个随机分割，即使您只有几个点。另一方面，如果您的数据来自极其复杂的分布，这违反了iid假设等，则需要进行大量拆分才能恢复可靠的统计数据那么如何决定呢？一般

哪种数据集从使用k-fold验证中获益最大？它通常比标准分割百分比更好吗？

简单的回答是：小的

更长的版本-当单个随机数据样本不代表底层分布的样本时，使用k倍分割（或自举等）。数据集的大小只是一个启发，它试图捕捉这种现象。问题是，你的发行版越复杂，“足够大”就越大。因此，如果您的问题是二维分类，您可以几乎完美地拟合线性模型，那么您可能可以使用单个随机分割，即使您只有几个点。另一方面，如果您的数据来自极其复杂的分布，这违反了iid假设等，则需要进行大量拆分才能恢复可靠的统计数据

那么如何决定呢？一般来说，如果你负担得起的话，做k倍的cv（计算时间）。您不会以这种方式损害您的流程。另一种统计上更合理的方法是收集数据的多个统计数据，例如，每个分割的边际分布（每个特征上的投影）的KDE，以及整个数据集，并比较这三个数据。如果它们几乎相同，则最好使用这种分割。若你们能注意到（无论是视觉上，还是通过统计测试）这些分布有显著差异，那个么你们必须添加k倍cv（或其他减少结果差异的技术）
小数据集-也是的，通常更好。