Neural network 当损失在各个时期保持不变时,为什么需要降低学习率?

Neural network 当损失在各个时期保持不变时,为什么需要降低学习率?,neural-network,gradient-descent,Neural Network,Gradient Descent,有没有直观的解释,说明为什么在损失保持不变的情况下,学习率需要降低?。这种方法不会使网络陷入局部极小值或平台吗?帮助我理解的是,假设我的损失函数仅取决于单个特征。因此,它可能是一条抛物线。现在,假设您位于最小值左侧的分支上。如果你选择的学习率太高,这可能会导致你跨过最小值,最终进入正确的分支。如果重复此操作,将在两个分支上的点之间保持交替,而不会达到最小值。但是:如果你现在降低你的学习速度,你会慢慢接近真正的最低水平 这意味着:如果你的成本在一段时间内保持相对稳定,可能是你超过了当地的最低水平。

有没有直观的解释,说明为什么在损失保持不变的情况下,学习率需要降低?。这种方法不会使网络陷入局部极小值或平台吗?

帮助我理解的是,假设我的损失函数仅取决于单个特征。因此,它可能是一条抛物线。现在,假设您位于最小值左侧的分支上。如果你选择的学习率太高,这可能会导致你跨过最小值,最终进入正确的分支。如果重复此操作,将在两个分支上的点之间保持交替,而不会达到最小值。但是:如果你现在降低你的学习速度,你会慢慢接近真正的最低水平

这意味着:如果你的成本在一段时间内保持相对稳定,可能是你超过了当地的最低水平。因此,您可以尝试减少您的步骤


是的:大多数方法通常只能找到局部极小值。因为你通常有多元成本函数,你随机从某个地方开始,然后你试图找到某种最小值。由于您通常会进行多次运行,很可能最终会出现不同的局部极小值。

帮助我理解的是,假设我的损失函数仅取决于单个功能。因此,它可能是一条抛物线。现在,假设您位于最小值左侧的分支上。如果你选择的学习率太高,这可能会导致你跨过最小值,最终进入正确的分支。如果重复此操作,将在两个分支上的点之间保持交替,而不会达到最小值。但是:如果你现在降低你的学习速度,你会慢慢接近真正的最低水平

这意味着:如果你的成本在一段时间内保持相对稳定,可能是你超过了当地的最低水平。因此,您可以尝试减少您的步骤


是的:大多数方法通常只能找到局部极小值。因为你通常有多元成本函数,你随机从某个地方开始,然后你试图找到某种最小值。由于您通常会进行多次跑步,因此很可能会出现不同的局部最小值。

谢谢您的回复。但是如果这是一个很长的鞍点或谷点,如果我们不断降低学习率,这不会阻止网络脱离鞍点或谷点吗?鞍点通常不是一个问题,因为你必须想象数百个参数的成本函数。在更高的维度上,它不太可能卡在鞍点上。另外,减小步长的原因是陷入低谷并找到它们的最小值。谢谢你的回复:)谢谢你的回复。但是如果这是一个很长的鞍点或谷点,如果我们不断降低学习率,这不会阻止网络脱离鞍点或谷点吗?鞍点通常不是一个问题,因为你必须想象数百个参数的成本函数。在更高的维度上,它不太可能卡在鞍点上。另外,减小步长的原因是陷入低谷并找到它们的最小值。感谢您的回复:)