Nlp 为什么在变形金刚中使用多头注意力?

Nlp 为什么在变形金刚中使用多头注意力?,nlp,transformer,attention-model,Nlp,Transformer,Attention Model,我试图理解为什么变形金刚会使用多重注意力。我发现: 而不是使用单一的注意功能,注意可以 由于受实际单词本身的支配,变形金刚使用多个单词 各位注意 “注意力由单词本身支配”是什么意思?多头注意力的使用如何解决这个问题?多头注意力的引入是因为观察到不同的单词以不同的方式相互关联。对于一个给定的词,句子中的其他词可以起到缓和或否定意义的作用,但它们也可以表示继承(是一种)、占有(属于)等关系 我发现这个讲座很有帮助,我举了一个例子: “这家餐馆并不太糟糕。” 请注意,“可怕”一词的含义被“太”和“不”

我试图理解为什么变形金刚会使用多重注意力。我发现:

而不是使用单一的注意功能,注意可以 由于受实际单词本身的支配,变形金刚使用多个单词 各位注意


“注意力由单词本身支配”是什么意思?多头注意力的使用如何解决这个问题?

多头注意力的引入是因为观察到不同的单词以不同的方式相互关联。对于一个给定的词,句子中的其他词可以起到缓和或否定意义的作用,但它们也可以表示继承(是一种)、占有(属于)等关系

我发现这个讲座很有帮助,我举了一个例子:

“这家餐馆并不太糟糕。”


请注意,“可怕”一词的含义被“太”和“不”(太:适度,不:倒置)这两个词所扭曲,“可怕”也与“餐厅”有关,因为它表达了一种属性。

变形金刚最初是被提出来的,正如“注意力就是你所需要的一切”的标题所暗示的那样,作为一种更有效的seq2seq模型,烧蚀RNN结构通常使用到这一点

然而,在追求这种效率的过程中,与基于RNN的模型相比,单头注意力降低了描述能力。提出了多个头部来缓解这种情况,使模型能够学习多个低比例尺特征地图,而不是一个全重叠地图:

在这些模型中,将来自两个任意输入或输出位置的信号关联起来所需的操作数量随着位置之间的距离而增加[…],这使得了解远距离位置之间的依赖关系变得更加困难[12]。在变压器中,这被减少到一个恒定的操作数,尽管由于平均注意加权位置而降低了有效分辨率,这是我们用多头注意抵消的效果

  • (2017年)
因此,在transformer的单层中类似于CNN的单层中的多个内核:它们具有相同的体系结构,在相同的功能空间中运行,但由于它们是具有不同权重集的独立“副本”,因此可以“自由”学习不同的功能

在CNN中,这可能对应于视觉特征的不同定义,而在转换器中,这可能对应于相关性的不同定义:1

例如:

建筑学 输入 (第1层)
内核/头1 (第1层)
内核/头2 有线电视新闻网 形象 对角线的 水平边缘检测 变压器 判决 注意下一个单词 注意动词的直接宾语
也许你会在网上找到更多答案