Deep learning 我应该使用全部可用数据来训练我的深度学习模型吗?只使用子集的利弊是什么?

Deep learning 我应该使用全部可用数据来训练我的深度学习模型吗?只使用子集的利弊是什么?,deep-learning,nlp,semantic-comparison,Deep Learning,Nlp,Semantic Comparison,我有一个非常复杂的基于LSTM的神经网络模型,我正在训练Quora重复问题对。原始数据集中大约有40万个句子对。在整个或80%的数据集上进行训练需要大量的处理能力和计算时间。如果我随机选择数据集的一个子集,比如说8000对只用于训练,2000对用于测试,这是否不明智?它会对性能产生严重影响吗?数据越多,模型就越真实吗 根据经验,深度神经网络通常受益于更多的数据 如果您有一个描述良好的模型,并对输入进行了适当的设计,那么如果您选择了数据集的较小子集,您将失败 但是,您始终可以使用度量来评估这一点。

我有一个非常复杂的基于LSTM的神经网络模型,我正在训练Quora重复问题对。原始数据集中大约有40万个句子对。在整个或80%的数据集上进行训练需要大量的处理能力和计算时间。如果我随机选择数据集的一个子集,比如说8000对只用于训练,2000对用于测试,这是否不明智?它会对性能产生严重影响吗?数据越多,模型就越真实吗

根据经验,深度神经网络通常受益于更多的数据

如果您有一个描述良好的模型,并对输入进行了适当的设计,那么如果您选择了数据集的较小子集,您将失败

但是,您始终可以使用度量来评估这一点。从8000双开始,检查每种样本量下,您的损失是如何减少的

对于大问题,您必须始终记住,计算时间通常也很大