Deep learning 我应该使用全部可用数据来训练我的深度学习模型吗？只使用子集的利弊是什么？_Deep Learning_Nlp_Semantic Comparison

Deep learning 我应该使用全部可用数据来训练我的深度学习模型吗？只使用子集的利弊是什么？

deep-learning nlp

Deep learning 我应该使用全部可用数据来训练我的深度学习模型吗？只使用子集的利弊是什么？,deep-learning,nlp,semantic-comparison,Deep Learning,Nlp,Semantic Comparison,我有一个非常复杂的基于LSTM的神经网络模型，我正在训练Quora重复问题对。原始数据集中大约有40万个句子对。在整个或80%的数据集上进行训练需要大量的处理能力和计算时间。如果我随机选择数据集的一个子集，比如说8000对只用于训练，2000对用于测试，这是否不明智？它会对性能产生严重影响吗？数据越多，模型就越真实吗根据经验，深度神经网络通常受益于更多的数据如果您有一个描述良好的模型，并对输入进行了适当的设计，那么如果您选择了数据集的较小子集，您将失败但是，您始终可以使用度量来评估这一点。

我有一个非常复杂的基于LSTM的神经网络模型，我正在训练Quora重复问题对。原始数据集中大约有40万个句子对。在整个或80%的数据集上进行训练需要大量的处理能力和计算时间。如果我随机选择数据集的一个子集，比如说8000对只用于训练，2000对用于测试，这是否不明智？它会对性能产生严重影响吗？数据越多，模型就越真实吗

根据经验，深度神经网络通常受益于更多的数据

如果您有一个描述良好的模型，并对输入进行了适当的设计，那么如果您选择了数据集的较小子集，您将失败

但是，您始终可以使用度量来评估这一点。从8000双开始，检查每种样本量下，您的损失是如何减少的

对于大问题，您必须始终记住，计算时间通常也很大