Machine learning 注意网络没有隐藏状态?
我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究注意力模型的结构时,我发现一个模型通常是这样的:Machine learning 注意网络没有隐藏状态?,machine-learning,recurrent-neural-network,translate,attention-model,Machine Learning,Recurrent Neural Network,Translate,Attention Model,我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究注意力模型的结构时,我发现一个模型通常是这样的: x:输入 h:编码器的隐藏状态,该状态反馈给下一个编码器 编码器的隐藏状态 s:解码器的隐藏状态,具有 作为输入和馈送的所有编码器隐藏状态的加权和 转发到下一个解码器的隐藏状态 y:输出 对于像转换这样的过程,为什么编码器的隐藏状态必须向前反馈或首先存在?我们已经知道下一个x是什么。因此,输入的顺序对于输出的顺序不一定重要,因为注意力模型同时观察所有输入时,从先前输入中记忆的内容也不一定
- x:输入
- h:编码器的隐藏状态,该状态反馈给下一个编码器 编码器的隐藏状态
- s:解码器的隐藏状态,具有 作为输入和馈送的所有编码器隐藏状态的加权和 转发到下一个解码器的隐藏状态
- y:输出
谢谢大家! 你可以很容易地尝试并看到你会得到非常糟糕的结果。即使在输入嵌入中添加了一些位置编码,结果也会非常糟糕 秩序很重要。句子:
- 约翰喜欢结婚
- 玛丽爱约翰