Deep learning BERT和其他语言注意模型是否只在初始嵌入阶段共享交叉词信息?

Deep learning BERT和其他语言注意模型是否只在初始嵌入阶段共享交叉词信息?,deep-learning,nlp,bert-language-model,Deep Learning,Nlp,Bert Language Model,我研究视觉注意模型,但最近一直在阅读伯特和其他语言注意模型,以填补我知识上的严重空白 我对我在这些模型架构中看到的东西感到有点困惑。给他一句“猫追狗”的话。我希望在每个单词的嵌入之间有交叉信息流。例如,我希望在模型中看到一个点,“猫”的嵌入与“狗”的嵌入相结合,以创建注意面具 相反,我似乎看到的(如果我错了,请纠正我)是,像“猫”这样的单词的嵌入最初是为了包含它们周围单词的信息。因此,每个单词的每个嵌入都包括它们周围的所有其他单词。然后,这些嵌入中的每一个都并行地通过模型。这对我来说似乎很奇怪,

我研究视觉注意模型,但最近一直在阅读伯特和其他语言注意模型,以填补我知识上的严重空白

我对我在这些模型架构中看到的东西感到有点困惑。给他一句“猫追狗”的话。我希望在每个单词的嵌入之间有交叉信息流。例如,我希望在模型中看到一个点,“猫”的嵌入与“狗”的嵌入相结合,以创建注意面具

相反,我似乎看到的(如果我错了,请纠正我)是,像“猫”这样的单词的嵌入最初是为了包含它们周围单词的信息。因此,每个单词的每个嵌入都包括它们周围的所有其他单词。然后,这些嵌入中的每一个都并行地通过模型。这对我来说似乎很奇怪,而且是多余的。他们为什么要这样建立模型


如果我们把猫挡在外面。“the…Chase the dog.”那么,在推断过程中,我们是否只需要通过模型发送“…”嵌入?

嵌入不包含任何关于其周围其他嵌入的信息。BERT和OpenGPT/GPT2等其他模型没有上下文相关的输入

与上下文相关的部分将在后面介绍。他们在基于注意力的模型中所做的是使用这些输入嵌入来创建其他向量,然后这些向量相互作用,并使用各种矩阵乘法、求和、规范化,这有助于模型理解上下文,进而帮助它做有趣的事情,包括语言生成等


当你说“我希望在模型中看到一个点,“猫”的嵌入与“狗”的嵌入相结合,以创建注意力面具”,你是对的。这确实发生了。只是不在嵌入级别。我们通过矩阵将嵌入与学习矩阵相乘来生成更多的向量,然后相互作用。

参考我认为是
自我注意层
使用
查询、键、值
向量来查找
单词
的信息和关系(我说的是一般的
变形金刚
也许对伯特来说也是如此)。
嵌入
只是
单词
向量
表示(
可以使用word2vec
).和
位置嵌入
在句子中编码有关
单词
位置
的信息。谢谢你的帮助。我的问题是,我假设一个简单的元素相乘来创建注意面具(这在我所看到的视觉模型中很常见).通过使用矩阵乘法,他们将各种嵌入组合在一起…线性代数再次出现。