Pytorch 什么';这两者之间的区别是什么;自我注意机制“;及;“完全连接”;层
我对这两种结构感到困惑。理论上,它们的输出都与它们的输入有关。什么魔力使“自我注意机制”比全连接层更强大?忽略规范化、偏差等细节,全连接网络是固定权重:Pytorch 什么';这两者之间的区别是什么;自我注意机制“;及;“完全连接”;层,pytorch,bert-language-model,transformer,Pytorch,Bert Language Model,Transformer,我对这两种结构感到困惑。理论上,它们的输出都与它们的输入有关。什么魔力使“自我注意机制”比全连接层更强大?忽略规范化、偏差等细节,全连接网络是固定权重: f(x) = (Wx) 其中W在培训中固定 自我关注层是动态的,随着时间的推移会改变权重: attn(x) = (Wx) f(x) = (attn(x) * x) 同样,这忽略了很多细节,但对于不同的应用程序,有许多不同的实现方式,您应该仔细检查一篇论文。忽略规范化、偏差等细节,完全连接的网络是固定权重的: f(x) = (Wx) 其中W
f(x) = (Wx)
其中W
在培训中固定
自我关注层是动态的,随着时间的推移会改变权重:
attn(x) = (Wx)
f(x) = (attn(x) * x)
同样,这忽略了很多细节,但对于不同的应用程序,有许多不同的实现方式,您应该仔细检查一篇论文。忽略规范化、偏差等细节,完全连接的网络是固定权重的:
f(x) = (Wx)
其中W
在培训中固定
自我关注层是动态的,随着时间的推移会改变权重:
attn(x) = (Wx)
f(x) = (attn(x) * x)
同样,这忽略了很多细节,但对于不同的应用程序,有许多不同的实现,您应该检查一篇论文,了解这一点。即自我关注中的f(x)=((wx)*x)。总之,f(x)是x的函数。所以从理论上讲,多个FC层可以模拟注意力的相同行为。@tom_cat从理论上讲,多个FC可以模拟任何功能。从某种程度上说,注意力是一种特殊类型的FC,对吗,其权重由其他权重动态间接确定@hkchengrex@tom_cat这是一个解释的问题,但我不会这么说。我想说,FC和自我注意都是“连接”的情况,其权重由固定的或与输入相关的方案决定。自我注意中的f(x)=((wx)*x)。总之,f(x)是x的函数。所以从理论上讲,多个FC层可以模拟注意力的相同行为。@tom_cat从理论上讲,多个FC可以模拟任何功能。从某种程度上说,注意力是一种特殊类型的FC,对吗,其权重由其他权重动态间接确定@hkchengrex@tom_cat这是一个解释的问题,但我不会这么说。我想说,FC和自我注意都是“连接”的例子,其权重由固定的或与输入相关的方案决定。