Deep learning seq2seq模型训练方法的选择 你可以推荐什么样的训练方法来训练基于注意顺序的序列神经机器翻译模型?SGD,Adadelta,Adam还是更好的?请给出一些建议,谢谢。

Deep learning seq2seq模型训练方法的选择 你可以推荐什么样的训练方法来训练基于注意顺序的序列神经机器翻译模型?SGD,Adadelta,Adam还是更好的?请给出一些建议,谢谢。,deep-learning,sequence-to-sequence,attention-model,Deep Learning,Sequence To Sequence,Attention Model,使用自适应梯度算法,如Adam、ADADDelta或RMSProp。我倾向于使用Adam,并且总是与剪裁的渐变相结合 自适应梯度算法对每个参数都有学习率。当模型中某些参数可能更稀疏(增加其学习率)或不稀疏(降低其学习率)时,这非常有用。如果你正在使用像神经机器翻译之类的东西,这种稀疏性是一个问题。我想Adam在计算上要贵一点,但它给出了很好的结果

使用自适应梯度算法,如Adam、ADADDelta或RMSProp。我倾向于使用Adam,并且总是与剪裁的渐变相结合

自适应梯度算法对每个参数都有学习率。当模型中某些参数可能更稀疏(增加其学习率)或不稀疏(降低其学习率)时,这非常有用。如果你正在使用像神经机器翻译之类的东西,这种稀疏性是一个问题。我想Adam在计算上要贵一点,但它给出了很好的结果