Neural network Sigmoid/Tanh函数如何在LSTM中忘记和包含信息_Neural Network_Lstm_Recurrent Neural Network

Neural network Sigmoid/Tanh函数如何在LSTM中忘记和包含信息

neural-network

Neural network Sigmoid/Tanh函数如何在LSTM中忘记和包含信息,neural-network,lstm,recurrent-neural-network,Neural Network,Lstm,Recurrent Neural Network,我在这里读过，讨论了Tanh函数背后的直觉，但这并不能帮助我理解sigmoid函数和激活函数是如何遗忘和包含信息的我想我想了解数据在LSTM中通过时发生了什么更容易查看LSTM单元的示意图：我想你已经读过另一个问题了：sigmoid/tanh函数有一个固定的输出范围。对于乙状结肠，这是（0,1），而对于tanh，这是（-1,1）。两者都有一个上限值和一个下限值正如你在上图中看到的，有3个门-但与你可能相信的相反，这些门实际上并没有以前馈方式连接到细胞中的任何其他神经元门是连接到连接而

我在这里读过，讨论了Tanh函数背后的直觉，但这并不能帮助我理解sigmoid函数和激活函数是如何遗忘和包含信息的

我想我想了解数据在LSTM中通过时发生了什么

更容易查看LSTM单元的示意图：

我想你已经读过另一个问题了：sigmoid/tanh函数有一个固定的输出范围。对于乙状结肠，这是

（0,1）

，而对于tanh，这是

（-1,1）

。两者都有一个上限值和一个下限值

正如你在上图中看到的，有3个门-但与你可能相信的相反，这些门实际上并没有以前馈方式连接到细胞中的任何其他神经元

门是连接到连接而不是神经元的。奇怪啊！让我解释一下

x\u t

正在投影到

c\u t

的连接。它们通过一个具有特定乘数（也称为权重）的连接进行连接。因此，从

x\u t

到

c\u t

的输入变为

x\u t*weight

但这还不是全部。门将向该计算添加另一个乘数。因此，它不是

x_*weight

，而是

x_*weight*gate

。对于输入门，它相当于

x\u t*weight*i\u t

基本上，

i\u t

的激活值与

x\u t

的值相乘。因此，如果

i\u t

具有高值，则来自

x\u t

的值对于

c\u t

具有更高的值。如果

i\u t

具有低值，则它可以潜在地禁用来自

x\u t

的输入（如果

i\u t=0

）

这真的很有趣，这幅画绝对是一个非常整洁的方式来表示LSTM。因此，我认为LSTM在向单元状态添加新信息之前会忘记信息的理解是不正确的？此外，我是否正确地假设初始激活值是任意的，并且来自

x\u t

的值在整个培训过程中会发生变化？我想我想了解的是，这些门是如何决定什么是重要的（高价值）还是不重要的（低价值）？