Neural network 当损失在各个时期保持不变时，为什么需要降低学习率？_Neural Network_Gradient Descent

Neural network 当损失在各个时期保持不变时，为什么需要降低学习率？

neural-network

Neural network 当损失在各个时期保持不变时，为什么需要降低学习率？,neural-network,gradient-descent,Neural Network,Gradient Descent,有没有直观的解释，说明为什么在损失保持不变的情况下，学习率需要降低？。这种方法不会使网络陷入局部极小值或平台吗？帮助我理解的是，假设我的损失函数仅取决于单个特征。因此，它可能是一条抛物线。现在，假设您位于最小值左侧的分支上。如果你选择的学习率太高，这可能会导致你跨过最小值，最终进入正确的分支。如果重复此操作，将在两个分支上的点之间保持交替，而不会达到最小值。但是：如果你现在降低你的学习速度，你会慢慢接近真正的最低水平这意味着：如果你的成本在一段时间内保持相对稳定，可能是你超过了当地的最低水平。

有没有直观的解释，说明为什么在损失保持不变的情况下，学习率需要降低？。这种方法不会使网络陷入局部极小值或平台吗？

帮助我理解的是，假设我的损失函数仅取决于单个特征。因此，它可能是一条抛物线。现在，假设您位于最小值左侧的分支上。如果你选择的学习率太高，这可能会导致你跨过最小值，最终进入正确的分支。如果重复此操作，将在两个分支上的点之间保持交替，而不会达到最小值。但是：如果你现在降低你的学习速度，你会慢慢接近真正的最低水平

这意味着：如果你的成本在一段时间内保持相对稳定，可能是你超过了当地的最低水平。因此，您可以尝试减少您的步骤

是的：大多数方法通常只能找到局部极小值。因为你通常有多元成本函数，你随机从某个地方开始，然后你试图找到某种最小值。由于您通常会进行多次运行，很可能最终会出现不同的局部极小值。

帮助我理解的是，假设我的损失函数仅取决于单个功能。因此，它可能是一条抛物线。现在，假设您位于最小值左侧的分支上。如果你选择的学习率太高，这可能会导致你跨过最小值，最终进入正确的分支。如果重复此操作，将在两个分支上的点之间保持交替，而不会达到最小值。但是：如果你现在降低你的学习速度，你会慢慢接近真正的最低水平

这意味着：如果你的成本在一段时间内保持相对稳定，可能是你超过了当地的最低水平。因此，您可以尝试减少您的步骤

是的：大多数方法通常只能找到局部极小值。因为你通常有多元成本函数，你随机从某个地方开始，然后你试图找到某种最小值。由于您通常会进行多次跑步，因此很可能会出现不同的局部最小值。

谢谢您的回复。但是如果这是一个很长的鞍点或谷点，如果我们不断降低学习率，这不会阻止网络脱离鞍点或谷点吗？鞍点通常不是一个问题，因为你必须想象数百个参数的成本函数。在更高的维度上，它不太可能卡在鞍点上。另外，减小步长的原因是陷入低谷并找到它们的最小值。谢谢你的回复：）谢谢你的回复。但是如果这是一个很长的鞍点或谷点，如果我们不断降低学习率，这不会阻止网络脱离鞍点或谷点吗？鞍点通常不是一个问题，因为你必须想象数百个参数的成本函数。在更高的维度上，它不太可能卡在鞍点上。另外，减小步长的原因是陷入低谷并找到它们的最小值。感谢您的回复：）