Nlp 端到端存储器网络中的位置编码(PE)

Nlp 端到端存储器网络中的位置编码(PE),nlp,formula,qa,Nlp,Formula,Qa,最近我在Facebook上学习。在第4.1节中,有一个位置编码公式。我不知道这个公式是从哪里来的。我可以想象这个公式输出的排序数组类似于[1.8146,1.7285,1.6427,1.5575,1.4714] 这是作者刚刚调整过的公式还是一些著名的索引公式?我在这方面完全是新手 lkj = (1−j/J)−(k/d)(1−2j/J) ((assuming 1-based indexing) 当我实现本文中的方程时,结果似乎有一些共通的特征 结果是2维矩阵,其形状为[句子大小,嵌入大小]。w值随

最近我在Facebook上学习。在第4.1节中,有一个位置编码公式。我不知道这个公式是从哪里来的。我可以想象这个公式输出的排序数组类似于[1.8146,1.7285,1.6427,1.5575,1.4714]

这是作者刚刚调整过的公式还是一些著名的索引公式?我在这方面完全是新手

lkj = (1−j/J)−(k/d)(1−2j/J) ((assuming 1-based indexing)

当我实现本文中的方程时,结果似乎有一些共通的特征

结果是2维矩阵,其形状为[句子大小,嵌入大小]。w值随着单词索引的增加而减小,直到矩阵的中间索引,随着单词索引的增加而增大,直到最终索引。 这意味着matraix中的值是对称的。当我第一次在矩阵中找到规则时,它引起了我的好奇心。 我阅读了数据,似乎所有答案的索引都是句子的第一个或最后一个。因此,公式是由数据产生的,换句话说,位置编码是另一个注意事项,这使得第一个或最后一个单词更加重要 因此,如果答案主要在单词的中间索引中,当我们想要得到句子的表示时,我们可以给予中间单词更多的关注