Pytorch 什么'；这两者之间的区别是什么；自我注意机制“；及；“完全连接”；层_Pytorch_Bert Language Model_Transformer

Pytorch 什么'；这两者之间的区别是什么；自我注意机制“；及；“完全连接”；层

pytorch

Pytorch 什么'；这两者之间的区别是什么；自我注意机制“；及；“完全连接”；层,pytorch,bert-language-model,transformer,Pytorch,Bert Language Model,Transformer,我对这两种结构感到困惑。理论上，它们的输出都与它们的输入有关。什么魔力使“自我注意机制”比全连接层更强大？忽略规范化、偏差等细节，全连接网络是固定权重： f(x) = (Wx) 其中W在培训中固定自我关注层是动态的，随着时间的推移会改变权重： attn(x) = (Wx) f(x) = (attn(x) * x) 同样，这忽略了很多细节，但对于不同的应用程序，有许多不同的实现方式，您应该仔细检查一篇论文。忽略规范化、偏差等细节，完全连接的网络是固定权重的： f(x) = (Wx) 其中W

我对这两种结构感到困惑。理论上，它们的输出都与它们的输入有关。什么魔力使“自我注意机制”比全连接层更强大？

忽略规范化、偏差等细节，全连接网络是固定权重：

f(x) = (Wx)

其中

在培训中固定

自我关注层是动态的，随着时间的推移会改变权重：

attn(x) = (Wx)
f(x) = (attn(x) * x)

同样，这忽略了很多细节，但对于不同的应用程序，有许多不同的实现方式，您应该仔细检查一篇论文。

忽略规范化、偏差等细节，完全连接的网络是固定权重的：

f(x) = (Wx)

其中

在培训中固定

自我关注层是动态的，随着时间的推移会改变权重：

attn(x) = (Wx)
f(x) = (attn(x) * x)

同样，这忽略了很多细节，但对于不同的应用程序，有许多不同的实现，您应该检查一篇论文，了解这一点。

即自我关注中的f（x）=（（wx）*x）。总之，f（x）是x的函数。所以从理论上讲，多个FC层可以模拟注意力的相同行为。@tom_cat从理论上讲，多个FC可以模拟任何功能。从某种程度上说，注意力是一种特殊类型的FC，对吗，其权重由其他权重动态间接确定@hkchengrex@tom_cat这是一个解释的问题，但我不会这么说。我想说，FC和自我注意都是“连接”的情况，其权重由固定的或与输入相关的方案决定。自我注意中的f（x）=（（wx）*x）。总之，f（x）是x的函数。所以从理论上讲，多个FC层可以模拟注意力的相同行为。@tom_cat从理论上讲，多个FC可以模拟任何功能。从某种程度上说，注意力是一种特殊类型的FC，对吗，其权重由其他权重动态间接确定@hkchengrex@tom_cat这是一个解释的问题，但我不会这么说。我想说，FC和自我注意都是“连接”的例子，其权重由固定的或与输入相关的方案决定。