Deep learning 为什么上下文向量没有传递给解码器的每个输入

Deep learning 为什么上下文向量没有传递给解码器的每个输入,deep-learning,seq2seq,encoder-decoder,Deep Learning,Seq2seq,Encoder Decoder,在该模型中,在编码器部分,我们给出一个包含3个单词A、B和c的输入句子,并得到一个上下文向量W,它被传递给解码器。我们为什么不将W传递给解码器的所有单元,而不是前一个单元的输出,例如(W首先传递,然后X在下一个单元中传递,Y在下一个单元中传递) 有人能解释一下解码器的单元状态到底发生了什么吗?传递给解码器的编码器的单元状态发生了什么这是一个没有注意的普通编码器-解码器模型,没有上下文向量,这就是注意机制的输出是如何调用的 在阅读完句子ABC之后,LSTM状态应该包含关于整个输入序列的信息,这样我

在该模型中,在编码器部分,我们给出一个包含3个单词A、B和c的输入句子,并得到一个上下文向量W,它被传递给解码器。我们为什么不将W传递给解码器的所有单元,而不是前一个单元的输出,例如(W首先传递,然后X在下一个单元中传递,Y在下一个单元中传递)


有人能解释一下解码器的单元状态到底发生了什么吗?传递给解码器的编码器的单元状态发生了什么这是一个没有注意的普通编码器-解码器模型,没有上下文向量,这就是注意机制的输出是如何调用的

在阅读完句子ABC之后,LSTM状态应该包含关于整个输入序列的信息,这样我们就可以开始解码了。作为第一个单词,我们解码单词
W
,并在下一步将其作为输入输入输入,在这里我们解码单词
X
,依此类推。LSTM不提供上下文向量,而是嵌入相应的单词


解码器必须始终获取前一个单词,因为它不知道前一步解码的单词是什么。LSTM状态被投影到词汇量,我们在所有可能的单词上都有一个分布,分布中的任何单词都可以被采样并在下一步输入。

我得到了它,谢谢您的帮助