Machine learning 机器学习的动力是什么?

Machine learning 机器学习的动力是什么?,machine-learning,artificial-intelligence,Machine Learning,Artificial Intelligence,我是机器学习领域的新手,最近听说了这个学期。我试着在网上读一些文章,但我还是不明白背后的意思。有人能给我举一些例子吗?动量是梯度下降算法中使用的一个术语 梯度下降是一种优化算法,其工作原理是找到当前状态下最陡坡度的方向,并通过向该方向移动来更新其状态。因此,在每一步中,它保证了要最小化的函数值每一步都会减小。问题是这个方向在函数的某些点上会发生很大的变化,而最佳路径通常不包含很多转弯。因此,我们希望在算法改变方向之前,保持它已经运行了一段时间的方向。为此,引入了动量 思考这个问题的一种方式是想象

我是机器学习领域的新手,最近听说了这个学期。我试着在网上读一些文章,但我还是不明白背后的意思。有人能给我举一些例子吗?

动量是梯度下降算法中使用的一个术语

梯度下降是一种优化算法,其工作原理是找到当前状态下最陡坡度的方向,并通过向该方向移动来更新其状态。因此,在每一步中,它保证了要最小化的函数值每一步都会减小。问题是这个方向在函数的某些点上会发生很大的变化,而最佳路径通常不包含很多转弯。因此,我们希望在算法改变方向之前,保持它已经运行了一段时间的方向。为此,引入了动量

思考这个问题的一种方式是想象一块石头从山上滚下来,直到它停在一个平坦的区域(局部最小值)。如果从山上滚下来的石头恰好经过一个最陡的方向瞬间改变的点,我们不期望它完全改变它的方向(因为它的物理动量使它继续前进)。但是,如果斜坡的方向完全改变,石头将再次逐渐向最陡的斜坡方向改变

这是一个详细的链接,你可能想看看它背后的数学原理,或者只是看看动量的作用:


在反向传播过程中,我们将调整模型的权重,以适应最新的训练结果。在一个表现良好的曲面上,我们可以简单地使用牛顿方法,毫无问题地收敛到最优解。然而,现实很少表现良好,尤其是在随机初始化模型的初始混沌中。我们需要用一些不太随意的东西来穿越空间,而不是在下一次迭代中尝试达到最优(就像牛顿的方法那样)

相反,我们对牛顿的方法做了两个修正。第一个是
学习率
:牛顿通过使用局部梯度来计算解决方案应该在哪里来调整权重,并直接进入下一次迭代的新输入值<代码>学习率将此比例降低了很多,在指定的方向上采取较小的步骤。例如,如果学习率为0.1,则表示只能达到计算距离的10%。根据这个新的值,我们再次计算梯度,在解上“偷偷向上”。这使我们有更好的机会在不同的表面上找到最佳值,而不是在各个方向上过冲或振荡

动量
是保持方向一致的类似尝试。如果我们采取较小的步骤,在我们的空间中保持某种程度上一致的航向也是有意义的。我们采用前一个航向向量和新计算的梯度向量的线性组合,并在该方向进行调整。例如,如果动量为0.90,我们将取上一个方向的90%加上新方向的10%,并相应地调整权重——将该方向向量乘以学习速率

这有用吗