Neural network Sigmoid/Tanh函数如何在LSTM中忘记和包含信息

Neural network Sigmoid/Tanh函数如何在LSTM中忘记和包含信息,neural-network,lstm,recurrent-neural-network,Neural Network,Lstm,Recurrent Neural Network,我在这里读过,讨论了Tanh函数背后的直觉,但这并不能帮助我理解sigmoid函数和激活函数是如何遗忘和包含信息的 我想我想了解数据在LSTM中通过时发生了什么 更容易查看LSTM单元的示意图: 我想你已经读过另一个问题了:sigmoid/tanh函数有一个固定的输出范围。对于乙状结肠,这是(0,1),而对于tanh,这是(-1,1)。两者都有一个上限值和一个下限值 正如你在上图中看到的,有3个门-但与你可能相信的相反,这些门实际上并没有以前馈方式连接到细胞中的任何其他神经元 门是连接到连接而

我在这里读过,讨论了Tanh函数背后的直觉,但这并不能帮助我理解sigmoid函数和激活函数是如何遗忘和包含信息的


我想我想了解数据在LSTM中通过时发生了什么

更容易查看LSTM单元的示意图:

我想你已经读过另一个问题了:sigmoid/tanh函数有一个固定的输出范围。对于乙状结肠,这是
(0,1)
,而对于tanh,这是
(-1,1)
。两者都有一个上限值和一个下限值

正如你在上图中看到的,有3个门-但与你可能相信的相反,这些门实际上并没有以前馈方式连接到细胞中的任何其他神经元

门是连接到连接而不是神经元的。奇怪啊!让我解释一下
x\u t
正在投影到
c\u t
的连接。它们通过一个具有特定乘数(也称为权重)的连接进行连接。因此,从
x\u t
c\u t
的输入变为
x\u t*weight

但这还不是全部。门将向该计算添加另一个乘数。因此,它不是
x_*weight
,而是
x_*weight*gate
。对于输入门,它相当于
x\u t*weight*i\u t


基本上,
i\u t
的激活值与
x\u t
的值相乘。因此,如果
i\u t
具有高值,则来自
x\u t
的值对于
c\u t
具有更高的值。如果
i\u t
具有低值,则它可以潜在地禁用来自
x\u t
的输入(如果
i\u t=0

这真的很有趣,这幅画绝对是一个非常整洁的方式来表示LSTM。因此,我认为LSTM在向单元状态添加新信息之前会忘记信息的理解是不正确的?此外,我是否正确地假设初始激活值是任意的,并且来自
x\u t
的值在整个培训过程中会发生变化?我想我想了解的是,这些门是如何决定什么是重要的(高价值)还是不重要的(低价值)?