Optimization 梯度下降的更新方程

Optimization 梯度下降的更新方程,optimization,machine-learning,gradient-descent,Optimization,Machine Learning,Gradient Descent,如果我们有一个近似函数y=f(w,x),其中x是输入,y是输出,w是权重。根据梯度下降规则,我们应该根据w=w-df/dw更新权重。但是我们是否可以根据w=w-w*df/dw来更新权重?以前有人见过这个吗?我之所以想这样做,是因为在我的算法中这样做比较容易。回想一下,梯度下降法是基于f(w,x)在w附近的泰勒展开式,其目的是——在你的上下文中——在小步骤中反复修改权重。反向梯度方向只是一个搜索方向,基于函数f(w,x)的局部知识 通常,权重的迭代包括步长,从而产生表达式 w_(i+1) = w_

如果我们有一个近似函数y=f(w,x),其中x是输入,y是输出,w是权重。根据梯度下降规则,我们应该根据w=w-df/dw更新权重。但是我们是否可以根据w=w-w*df/dw来更新权重?以前有人见过这个吗?我之所以想这样做,是因为在我的算法中这样做比较容易。

回想一下,梯度下降法是基于f(w,x)在w附近的泰勒展开式,其目的是——在你的上下文中——在小步骤中反复修改权重。反向梯度方向只是一个搜索方向,基于函数f(w,x)的局部知识

通常,权重的迭代包括步长,从而产生表达式

w_(i+1) = w_(i) - nu_j df/dw,
其中,步长nu_j的值是通过使用直线搜索找到的,参见例如

因此,基于以上讨论,回答您的问题:不,根据

w_(i+1) = w_(i) - w_(i) df/dw.
为什么??如果w_i(在上下文中)很大,我们将根据非常局部的信息迈出一大步,我们将使用与精细阶梯梯度下降法非常不同的方法


此外,正如lejlot在下面的评论中指出的那样,负值w(i)意味着您在梯度的(正)方向上进行遍历,即在函数增长最快的方向上,这是局部最差的搜索方向(对于最小化问题)。

简言之-不,这不是有效的梯度,你不能只编方程然后把它们插入:-)还有一个(甚至更大的)问题-如果
w(i)
为负怎么办?你会反对梯度索引,+1表示这个lejlot,我会编辑以包含在答案中。非常感谢你的回答。我现在明白了。