Deep learning 变压器-注意就是你所需要的-编码器-解码器交叉注意

Deep learning 变压器-注意就是你所需要的-编码器-解码器交叉注意,deep-learning,nlp,attention-model,Deep Learning,Nlp,Attention Model,我的理解是,每个编码器块从前一个编码器获取输出,并且该输出是序列(也称为句子)的有注意表示(Z)。我的问题是,最后一个编码器块如何从Z产生K,V(用于解码器的编码器解码) 我们只是从最后一个编码器层获取Wk和Wv吗 我认为对于解码器的所有第一个(非屏蔽)多头注意层,$K=V=Z$。但是,在计算该子层的注意力之前,$K$和$V$被投影到一个不同的空间中,该空间具有单独的训练参数矩阵$W_i^K$和$W_i^V$。您找到问题的答案了吗。我也很难理解解码器的相位/

我的理解是,每个编码器块从前一个编码器获取输出,并且该输出是序列(也称为句子)的有注意表示(Z)。我的问题是,最后一个编码器块如何从Z产生K,V(用于解码器的编码器解码)

我们只是从最后一个编码器层获取Wk和Wv吗


我认为对于解码器的所有第一个(非屏蔽)多头注意层,$K=V=Z$。但是,在计算该子层的注意力之前,$K$和$V$被投影到一个不同的空间中,该空间具有单独的训练参数矩阵$W_i^K$和$W_i^V$。

您找到问题的答案了吗。我也很难理解解码器的相位/