Neural network 考虑Transformer modell：从编码器堆栈向解码器层馈送什么_Neural Network_Transformer_Attention Model

Neural network 考虑Transformer modell：从编码器堆栈向解码器层馈送什么

neural-network

Neural network 考虑Transformer modell：从编码器堆栈向解码器层馈送什么,neural-network,transformer,attention-model,Neural Network,Transformer,Attention Model,我试图正确理解transformer架构。我很难弄清楚，ist实际上从编码器堆栈向解码器堆栈提供了什么样的数据考虑到谷歌（Google）（（pdf））的“注意力就是你所需要的一切”论文和Jay Allamar（）的博客文章，我认为注意力是“在编码器堆栈的所有输出”（论文）上进行的。现在我想知道两件事：1。解码器堆栈是如何初始化的，是否存在固定的或经过训练的解码器状态D0或其他东西，或者它也是由编码器堆栈的输出初始化的。2.我可以想象这个“编码器状态的输出”是什么样子？由于这是一个编码器-解码器

我试图正确理解transformer架构。我很难弄清楚，ist实际上从编码器堆栈向解码器堆栈提供了什么样的数据

考虑到谷歌（Google）（（pdf））的“注意力就是你所需要的一切”论文和Jay Allamar（）的博客文章，我认为注意力是“在编码器堆栈的所有输出”（论文）上进行的。现在我想知道两件事：1。解码器堆栈是如何初始化的，是否存在固定的或经过训练的解码器状态D0或其他东西，或者它也是由编码器堆栈的输出初始化的。2.我可以想象这个“编码器状态的输出”是什么样子？由于这是一个编码器-解码器结构，我希望它是某种上下文向量。在Jay Allamar（）的另一篇博文中，它似乎是编码器层隐藏状态的串联或堆栈。然而，在第一篇提到的博客文章中以及在论文中，这些隐藏状态听起来更像是只提供给后续的编码器层，而不是以任何方式存储。那么，解码器实际上在处理什么呢