Optimization 梯度下降的更新方程_Optimization_Machine Learning_Gradient Descent

Optimization 梯度下降的更新方程

optimization machine-learning

Optimization 梯度下降的更新方程,optimization,machine-learning,gradient-descent,Optimization,Machine Learning,Gradient Descent,如果我们有一个近似函数y=f（w，x），其中x是输入，y是输出，w是权重。根据梯度下降规则，我们应该根据w=w-df/dw更新权重。但是我们是否可以根据w=w-w*df/dw来更新权重？以前有人见过这个吗？我之所以想这样做，是因为在我的算法中这样做比较容易。回想一下，梯度下降法是基于f（w，x）在w附近的泰勒展开式，其目的是——在你的上下文中——在小步骤中反复修改权重。反向梯度方向只是一个搜索方向，基于函数f（w，x）的局部知识通常，权重的迭代包括步长，从而产生表达式 w_(i+1) = w_

如果我们有一个近似函数y=f（w，x），其中x是输入，y是输出，w是权重。根据梯度下降规则，我们应该根据w=w-df/dw更新权重。但是我们是否可以根据w=w-w*df/dw来更新权重？以前有人见过这个吗？我之所以想这样做，是因为在我的算法中这样做比较容易。

回想一下，梯度下降法是基于f（w，x）在w附近的泰勒展开式，其目的是——在你的上下文中——在小步骤中反复修改权重。反向梯度方向只是一个搜索方向，基于函数f（w，x）的局部知识
通常，权重的迭代包括步长，从而产生表达式

w_(i+1) = w_(i) - nu_j df/dw,
其中，步长nu_j的值是通过使用直线搜索找到的，参见例如
因此，基于以上讨论，回答您的问题：不，根据

w_(i+1) = w_(i) - w_(i) df/dw.
为什么?？如果w_i（在上下文中）很大，我们将根据非常局部的信息迈出一大步，我们将使用与精细阶梯梯度下降法非常不同的方法

此外，正如lejlot在下面的评论中指出的那样，负值w（i）意味着您在梯度的（正）方向上进行遍历，即在函数增长最快的方向上，这是局部最差的搜索方向（对于最小化问题）。
简言之-不，这不是有效的梯度，你不能只编方程然后把它们插入：-）还有一个（甚至更大的）问题-如果
w（i）
为负怎么办？你会反对梯度索引，+1表示这个lejlot，我会编辑以包含在答案中。非常感谢你的回答。我现在明白了。