Pytorch 什么';这两者之间的区别是什么;自我注意机制“;及;“完全连接”;层

Pytorch 什么';这两者之间的区别是什么;自我注意机制“;及;“完全连接”;层,pytorch,bert-language-model,transformer,Pytorch,Bert Language Model,Transformer,我对这两种结构感到困惑。理论上,它们的输出都与它们的输入有关。什么魔力使“自我注意机制”比全连接层更强大?忽略规范化、偏差等细节,全连接网络是固定权重: f(x) = (Wx) 其中W在培训中固定 自我关注层是动态的,随着时间的推移会改变权重: attn(x) = (Wx) f(x) = (attn(x) * x) 同样,这忽略了很多细节,但对于不同的应用程序,有许多不同的实现方式,您应该仔细检查一篇论文。忽略规范化、偏差等细节,完全连接的网络是固定权重的: f(x) = (Wx) 其中W

我对这两种结构感到困惑。理论上,它们的输出都与它们的输入有关。什么魔力使“自我注意机制”比全连接层更强大?

忽略规范化、偏差等细节,全连接网络是固定权重:

f(x) = (Wx)
其中
W
在培训中固定

自我关注层是动态的,随着时间的推移会改变权重:

attn(x) = (Wx)
f(x) = (attn(x) * x)

同样,这忽略了很多细节,但对于不同的应用程序,有许多不同的实现方式,您应该仔细检查一篇论文。

忽略规范化、偏差等细节,完全连接的网络是固定权重的:

f(x) = (Wx)
其中
W
在培训中固定

自我关注层是动态的,随着时间的推移会改变权重:

attn(x) = (Wx)
f(x) = (attn(x) * x)

同样,这忽略了很多细节,但对于不同的应用程序,有许多不同的实现,您应该检查一篇论文,了解这一点。

即自我关注中的f(x)=((wx)*x)。总之,f(x)是x的函数。所以从理论上讲,多个FC层可以模拟注意力的相同行为。@tom_cat从理论上讲,多个FC可以模拟任何功能。从某种程度上说,注意力是一种特殊类型的FC,对吗,其权重由其他权重动态间接确定@hkchengrex@tom_cat这是一个解释的问题,但我不会这么说。我想说,FC和自我注意都是“连接”的情况,其权重由固定的或与输入相关的方案决定。自我注意中的f(x)=((wx)*x)。总之,f(x)是x的函数。所以从理论上讲,多个FC层可以模拟注意力的相同行为。@tom_cat从理论上讲,多个FC可以模拟任何功能。从某种程度上说,注意力是一种特殊类型的FC,对吗,其权重由其他权重动态间接确定@hkchengrex@tom_cat这是一个解释的问题,但我不会这么说。我想说,FC和自我注意都是“连接”的例子,其权重由固定的或与输入相关的方案决定。