Neural network 考虑Transformer modell:从编码器堆栈向解码器层馈送什么

Neural network 考虑Transformer modell:从编码器堆栈向解码器层馈送什么,neural-network,transformer,attention-model,Neural Network,Transformer,Attention Model,我试图正确理解transformer架构。我很难弄清楚,ist实际上从编码器堆栈向解码器堆栈提供了什么样的数据 考虑到谷歌(Google)((pdf))的“注意力就是你所需要的一切”论文和Jay Allamar()的博客文章,我认为注意力是“在编码器堆栈的所有输出”(论文)上进行的。现在我想知道两件事:1。解码器堆栈是如何初始化的,是否存在固定的或经过训练的解码器状态D0或其他东西,或者它也是由编码器堆栈的输出初始化的。2.我可以想象这个“编码器状态的输出”是什么样子?由于这是一个编码器-解码器

我试图正确理解transformer架构。我很难弄清楚,ist实际上从编码器堆栈向解码器堆栈提供了什么样的数据

考虑到谷歌(Google)((pdf))的“注意力就是你所需要的一切”论文和Jay Allamar()的博客文章,我认为注意力是“在编码器堆栈的所有输出”(论文)上进行的。现在我想知道两件事:1。解码器堆栈是如何初始化的,是否存在固定的或经过训练的解码器状态D0或其他东西,或者它也是由编码器堆栈的输出初始化的。2.我可以想象这个“编码器状态的输出”是什么样子?由于这是一个编码器-解码器结构,我希望它是某种上下文向量。在Jay Allamar()的另一篇博文中,它似乎是编码器层隐藏状态的串联或堆栈。然而,在第一篇提到的博客文章中以及在论文中,这些隐藏状态听起来更像是只提供给后续的编码器层,而不是以任何方式存储。那么,解码器实际上在处理什么呢