Tensorflow 即使可以访问无限的数据，辍学是否也能改善模型？_Tensorflow_Deep Learning_Lstm_Reinforcement Learning

Tensorflow 即使可以访问无限的数据，辍学是否也能改善模型？

tensorflow deep-learning

Tensorflow 即使可以访问无限的数据，辍学是否也能改善模型？,tensorflow,deep-learning,lstm,reinforcement-learning,Tensorflow,Deep Learning,Lstm,Reinforcement Learning,对于何时使用辍学与何时仅仅获取更多数据，是否有明确的指导方针？我以前就知道，如果有足够的数据，人们不会想使用辍学。然而，我最近有了一个模型（4层LSTM处理音频输入），无论我提供了多少数据，该模型在经验上都会收敛到一定的损失，然后在我添加辍学时得到了显著改善这一现象是否被充分理解？那么，即使有更多（可能无限）可用的数据，也应该始终使用dropout吗跟进：如果是这样的话，我在RL的论文中没有看到太多关于辍学的提及。我认为这是因为有无限多的可生成数据。这里有没有其他的细微差别来考虑状态空间的分

对于何时使用辍学与何时仅仅获取更多数据，是否有明确的指导方针？我以前就知道，如果有足够的数据，人们不会想使用辍学。然而，我最近有了一个模型（4层LSTM处理音频输入），无论我提供了多少数据，该模型在经验上都会收敛到一定的损失，然后在我添加辍学时得到了显著改善

这一现象是否被充分理解？那么，即使有更多（可能无限）可用的数据，也应该始终使用dropout吗

跟进：如果是这样的话，我在RL的论文中没有看到太多关于辍学的提及。我认为这是因为有无限多的可生成数据。这里有没有其他的细微差别来考虑状态空间的分数，或者训练数据的异质性等等？

< P>没有明确的辍学处方-似乎是确证的。然而，他们写道：

“衰减”会在渐变中引入大量噪波与标准随机梯度下降法相比。因此，很多渐变倾向于相互抵消。为了弥补这一点，一个辍学网络通常应使用10-100倍的学习率是标准神经网络的最佳选择

所以我天真的猜测是10-100倍的额外训练数据是必要的。另外请注意，使用辍学可以使所需的培训制度的数量增加三倍，这是一个需要记住的额外因素。

辍学没有精确的处方，这似乎证实了这一点。然而，他们写道：

所以我天真的猜测是10-100倍的额外训练数据是必要的。另外请注意，使用辍学实际上可以使所需的培训制度数量增加三倍，这是一个需要记住的额外因素。

辍学会降低您的培训精度，以换取测试精度。但是，您在数据上的表现受训练精度的限制。在一个拥有无限多独立分布式数据的世界中，有可能获得与训练集相等的问题性能，因为本质上是相同的数据

然而，在实践中，你永远不会有这么好的训练设备。即使您获得无限的数据，它也不会代表您的分布，也绝对不会是独立的。

辍学会降低您的列车精度，以换取测试精度。但是，您在数据上的表现受训练精度的限制。在一个拥有无限多独立分布式数据的世界中，有可能获得与训练集相等的问题性能，因为本质上是相同的数据

然而，在实践中，你永远不会有这么好的训练设备。即使您获得无限的数据，它也不会代表您的分布，也绝对不会是独立的。

谢谢您的回答@Gavin。你是天真地说，你需要10-100倍的数据才能与辍学获得的正则化相等？或者辍学意味着你需要更多的数据？前者对我来说是有意义的，尽管我特别好奇，除了防止过度拟合（例如，执行紧凑表示、对噪声的鲁棒性等）之外，是否还有其他原因使辍学有用。感谢您的回答@Gavin。你是天真地说，你需要10-100倍的数据才能与辍学获得的正则化相等？或者辍学意味着你需要更多的数据？前者对我来说是有意义的，尽管我特别好奇，除了防止过度拟合（例如，强制执行紧凑表示、对噪声的鲁棒性等）之外，是否还有其他原因使辍学有用感谢@Thomas的回答。非常简洁的权衡描述。听起来你是在说，在一个无限完美的训练集中使用辍学是没有好处的，但是考虑到训练集中可能存在依赖性，它可能仍然有用-是这样吗？谢谢你的回答@Thomas。非常简洁的权衡描述。听起来你是在说，将辍学与无限完美的训练集结合使用并没有什么好处，但考虑到训练集中可能存在依赖性，它可能仍然有用——这是正确的吗？