Deep learning 数据集大小和交叉验证的需要（医学领域）？_Deep Learning_Cross Validation_Medical

Deep learning 数据集大小和交叉验证的需要（医学领域）？

deep-learning

Deep learning 数据集大小和交叉验证的需要（医学领域）？,deep-learning,cross-validation,medical,Deep Learning,Cross Validation,Medical,我目前正在设想一个对脉搏波（正常与病理）进行分类的深入学习模型此时，脉搏数据集数量约为200万，正常与病理标签余额约为3:1 分层10倍交叉验证目前对于我的计算机系统来说过于耗时和沉重的负担所以，这是我的问题，当创建一个包含约200万数据的深度学习模型时，是否需要交叉验证我想再问一个问题我想通过深度学习模型的脉搏分类结果来预测患者结果，以进一步评估我的深度学习模型的适用性（从大约300名患者中提取了200万数据）这种方法有意义吗结果较差的患者不可避免地会有许多病理脉冲，因此，我担心

我目前正在设想一个对脉搏波（正常与病理）进行分类的深入学习模型

此时，脉搏数据集数量约为200万，正常与病理标签余额约为3:1

分层10倍交叉验证目前对于我的计算机系统来说过于耗时和沉重的负担

所以，这是我的问题，当创建一个包含约200万数据的深度学习模型时，是否需要交叉验证

我想再问一个问题

我想通过深度学习模型的脉搏分类结果来预测患者结果，以进一步评估我的深度学习模型的适用性（从大约300名患者中提取了200万数据）

这种方法有意义吗

结果较差的患者不可避免地会有许多病理脉冲，因此，我担心深度学习模式会有作弊行为

我仍然很困惑，因为我在医学领域很少有机器学习的经验

谢谢你的帮助

诚恳地说，

CV需要作为模型质量的代理，用于测试和调整其参数。10倍的CV在我看来太多了。使用200万个项目，您可以将10-20%的数据（随机选择）用于简单的列车测试拆分。使用较小的数据集或试图从数据中提取大部分数据时，折叠是必要的。即使是这样，10倍也是一种滥杀。我通常会看到3-5次折叠