我有一个关于pytorch教程中顺序到顺序的翻译的问题

我有一个关于pytorch教程中顺序到顺序的翻译的问题,pytorch,seq2seq,attention-model,Pytorch,Seq2seq,Attention Model,我目前正在学习Seq2seq翻译。我正在努力理解并遵循本网站“”中的PyTorch教程 在网站上,他们谈论注意力技巧。我想知道他们在里昂和巴达瑙之间使用了哪种技术? 另一个问题,为什么他们在GRU单元之前应用Relu层? 最后,图中的红色框称为上下文向量,对吗 我想知道他们在里昂和巴达瑙之间使用了哪种技术 Loung是乘法的,所以它应该使用Bahdanau(加法注意),因为它包含线性。有关注意类型的更多信息,请参阅 为什么在GRU单元之前应用RelU层 这是Linear层之后的激活。我认为最

我目前正在学习Seq2seq翻译。我正在努力理解并遵循本网站“”中的PyTorch教程

在网站上,他们谈论注意力技巧。我想知道他们在里昂和巴达瑙之间使用了哪种技术? 另一个问题,为什么他们在GRU单元之前应用Relu层? 最后,图中的红色框称为上下文向量,对吗

我想知道他们在里昂和巴达瑙之间使用了哪种技术

Loung是乘法的,所以它应该使用Bahdanau(加法注意),因为它包含线性。有关注意类型的更多信息,请参阅

为什么在GRU单元之前应用RelU层

这是
Linear
层之后的激活。我认为最初使用的是tanh,但后来更喜欢ReLU。
我认为在普通
解码器中嵌入后的另一个ReLU是错误的

图中的红色框称为上下文向量,对吗