Machine learning 注意网络没有隐藏状态？_Machine Learning_Recurrent Neural Network_Translate_Attention Model

Machine learning 注意网络没有隐藏状态？

machine-learning

Machine learning 注意网络没有隐藏状态？,machine-learning,recurrent-neural-network,translate,attention-model,Machine Learning,Recurrent Neural Network,Translate,Attention Model,我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究注意力模型的结构时，我发现一个模型通常是这样的： x：输入 h：编码器的隐藏状态，该状态反馈给下一个编码器编码器的隐藏状态 s：解码器的隐藏状态，具有作为输入和馈送的所有编码器隐藏状态的加权和转发到下一个解码器的隐藏状态 y：输出对于像转换这样的过程，为什么编码器的隐藏状态必须向前反馈或首先存在？我们已经知道下一个x是什么。因此，输入的顺序对于输出的顺序不一定重要，因为注意力模型同时观察所有输入时，从先前输入中记忆的内容也不一定

我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究注意力模型的结构时，我发现一个模型通常是这样的：

x：输入
h：编码器的隐藏状态，该状态反馈给下一个编码器编码器的隐藏状态
s：解码器的隐藏状态，具有作为输入和馈送的所有编码器隐藏状态的加权和转发到下一个解码器的隐藏状态
y：输出

对于像转换这样的过程，为什么编码器的隐藏状态必须向前反馈或首先存在？我们已经知道下一个x是什么。因此，输入的顺序对于输出的顺序不一定重要，因为注意力模型同时观察所有输入时，从先前输入中记忆的内容也不一定重要。你不能直接把注意力放在嵌入x上吗

谢谢大家!

你可以很容易地尝试并看到你会得到非常糟糕的结果。即使在输入嵌入中添加了一些位置编码，结果也会非常糟糕

秩序很重要。句子：

约翰喜欢结婚
玛丽爱约翰

确实有不同的含义。此外，顺序不是从编码器获得的唯一信息。编码器也会输入消歧：单词可以是同名词，如“train”（请参阅）。此外，对经过训练的神经网络的探测表明，编码器对输入句子进行了相当抽象的表示（参见），并且大部分翻译实际上已经在编码器中发生（参见）