Tensorflow 哪种正则化使用L2正则化或在multiRNNCell中退出?

Tensorflow 哪种正则化使用L2正则化或在multiRNNCell中退出?,tensorflow,regularized,dropout,seq2seq,Tensorflow,Regularized,Dropout,Seq2seq,我一直在从事一个与时间序列预测的序列到序列自动编码器相关的项目。因此,我在编码器和解码器中使用了tf.contrib.rnn.MultiRNNCell。我不清楚为了规范我的seq2seq模型使用了哪种策略。我应该在丢失中使用L2正则化,还是在multiRNNCell中使用DropOutRapper(tf.contrib.rnn.DropOutRapper)?或者我可以同时使用这两种策略。。。L2表示多重细胞中细胞之间的密度和偏倚(投影层)和滴落器? 提前感谢:)您可以像通常一样同时使用退出和L2

我一直在从事一个与时间序列预测的序列到序列自动编码器相关的项目。因此,我在编码器和解码器中使用了
tf.contrib.rnn.MultiRNNCell
。我不清楚为了规范我的seq2seq模型使用了哪种策略。我应该在丢失中使用L2正则化,还是在multiRNNCell中使用DropOutRapper(
tf.contrib.rnn.DropOutRapper
)?或者我可以同时使用这两种策略。。。L2表示多重细胞中细胞之间的密度和偏倚(投影层)和滴落器?
提前感谢:)

您可以像通常一样同时使用退出和L2正则化。它们是完全不同的正则化类型。然而,我要指出,最近的文献表明,批量标准化已经取代了关于批量标准化的原始文件中提到的辍学需求:

摘自《文摘》:“它还起到了正则化的作用,在某些情况下消除了辍学的必要性。”

L2正则化通常在使用batchnorm时应用。没有什么能阻止您应用所有3种形式的正则化,上面的语句只表明,当batchnorm已经在使用时,您可能看不到应用dropout的改进


对于L2正则化的应用量和退出概率,通常存在最优值。这些是通过反复试验或超参数搜索算法调整的超参数。

谢谢这篇有趣的文章。一切都好!我将听从你的建议。我认为L2需要一个额外的参数(待选择),退出策略只是(通常)使用keep_prob=0.5。我将进行一些基准测试,以了解更多细节。当我运行超参数搜索时,我发现最佳辍学率与0.5大不相同。根据我的经验,这取决于我有多少数据。对于大数据集,0.98曾经被选为最佳保留概率(例如,退出几乎没有好处)。