Neural network 不同的增量规则

Neural network 不同的增量规则,neural-network,artificial-intelligence,Neural Network,Artificial Intelligence,我很难理解这个关于delta规则的概念。 据我所知,在学习网络的过程中,增量规则用于更新权重。 假设我有两个公式: 第一个公式说的到底是什么?新重量应计为: learning rate (eta) * gradient of loss function. 这个结果将是新的重量。我说得对吗 第二个公式令人困惑。它到底说了什么?两者都应该是增量规则,但它们之间有什么区别?你能给我解释一下这个公式的以下几部分吗? 我想是这样的(但我对某些事情不太确定…) 感谢您的帮助是一种梯度下降算法。

我很难理解这个关于delta规则的概念。 据我所知,在学习网络的过程中,增量规则用于更新权重。 假设我有两个公式:

第一个公式说的到底是什么?新重量应计为:

learning rate (eta) * gradient of loss function. 
这个结果将是新的重量。我说得对吗

第二个公式令人困惑。它到底说了什么?两者都应该是增量规则,但它们之间有什么区别?你能给我解释一下这个公式的以下几部分吗? 我想是这样的(但我对某些事情不太确定…)

感谢您的帮助

是一种梯度下降算法。 您给出的两个公式给出了执行梯度下降的权重梯度,而不是新权重

第一个公式是一个通用表达式,而第二个公式是关于如何计算前一个梯度函数中的梯度系数的规则

按照每个梯度下降算法计算新权重:

w_new = w - lamda*dw

其中lambda是一个正数,可能是常数,也可能取决于迭代次数。

hm,那么它是如何与这些公式一起工作的呢?我可以将损失函数计算为(导数E/导数wij),现在当我想更新所有层中的权重时,它将如何工作?我将使用这两个公式中的哪一个?请问,在你的公式中“dw”是什么意思?我完全搞糊涂了:/
dw
是权重的梯度,它仅仅与第一个方程的左成员相同(它们包括梯度下降公式的lambda系数)。因此,如果你可以计算方程的左成员,你的新权重将被计算为前一个权重减去方程的左成员。查看维基百科页面,他们解释了公式的细节。这够清楚吗?
w_new = w - lamda*dw