Deep learning 数据集大小和交叉验证的需要(医学领域)?

Deep learning 数据集大小和交叉验证的需要(医学领域)?,deep-learning,cross-validation,medical,Deep Learning,Cross Validation,Medical,我目前正在设想一个对脉搏波(正常与病理)进行分类的深入学习模型 此时,脉搏数据集数量约为200万,正常与病理标签余额约为3:1 分层10倍交叉验证目前对于我的计算机系统来说过于耗时和沉重的负担 所以,这是我的问题, 当创建一个包含约200万数据的深度学习模型时,是否需要交叉验证 我想再问一个问题 我想通过深度学习模型的脉搏分类结果来预测患者结果,以进一步评估我的深度学习模型的适用性(从大约300名患者中提取了200万数据) 这种方法有意义吗 结果较差的患者不可避免地会有许多病理脉冲,因此,我担心

我目前正在设想一个对脉搏波(正常与病理)进行分类的深入学习模型

此时,脉搏数据集数量约为200万,正常与病理标签余额约为3:1

分层10倍交叉验证目前对于我的计算机系统来说过于耗时和沉重的负担

所以,这是我的问题, 当创建一个包含约200万数据的深度学习模型时,是否需要交叉验证

我想再问一个问题

我想通过深度学习模型的脉搏分类结果来预测患者结果,以进一步评估我的深度学习模型的适用性(从大约300名患者中提取了200万数据)

这种方法有意义吗

结果较差的患者不可避免地会有许多病理脉冲,因此,我担心深度学习模式会有作弊行为

我仍然很困惑,因为我在医学领域很少有机器学习的经验

谢谢你的帮助


诚恳地说,

CV需要作为模型质量的代理,用于测试和调整其参数。10倍的CV在我看来太多了。使用200万个项目,您可以将10-20%的数据(随机选择)用于简单的列车测试拆分。使用较小的数据集或试图从数据中提取大部分数据时,折叠是必要的。即使是这样,10倍也是一种滥杀。我通常会看到3-5次折叠