我有一个关于pytorch教程中顺序到顺序的翻译的问题_Pytorch_Seq2seq_Attention Model

我有一个关于pytorch教程中顺序到顺序的翻译的问题

pytorch

我有一个关于pytorch教程中顺序到顺序的翻译的问题,pytorch,seq2seq,attention-model,Pytorch,Seq2seq,Attention Model,我目前正在学习Seq2seq翻译。我正在努力理解并遵循本网站“”中的PyTorch教程在网站上，他们谈论注意力技巧。我想知道他们在里昂和巴达瑙之间使用了哪种技术？另一个问题，为什么他们在GRU单元之前应用Relu层？最后，图中的红色框称为上下文向量，对吗我想知道他们在里昂和巴达瑙之间使用了哪种技术 Loung是乘法的，所以它应该使用Bahdanau（加法注意），因为它包含线性。有关注意类型的更多信息，请参阅为什么在GRU单元之前应用RelU层这是Linear层之后的激活。我认为最

我目前正在学习Seq2seq翻译。我正在努力理解并遵循本网站“”中的PyTorch教程

在网站上，他们谈论注意力技巧。我想知道他们在里昂和巴达瑙之间使用了哪种技术？另一个问题，为什么他们在GRU单元之前应用Relu层？最后，图中的红色框称为上下文向量，对吗

我想知道他们在里昂和巴达瑙之间使用了哪种技术

Loung是乘法的，所以它应该使用Bahdanau（加法注意），因为它包含线性。有关注意类型的更多信息，请参阅

为什么在GRU单元之前应用RelU层

这是

Linear

层之后的激活。我认为最初使用的是tanh，但后来更喜欢ReLU。
我认为在普通

解码器中嵌入后的另一个ReLU是错误的

图中的红色框称为上下文向量，对吗
对