Machine learning 梯度下降全局极小值?

Machine learning 梯度下降全局极小值?,machine-learning,gradient-descent,Machine Learning,Gradient Descent,对于使平均平方误差最小的梯度下降算法,该算法找到线性预测器的系数。我指的算法是。如果学习率足够小,算法发现的这些系数收敛到全局最小值。我们知道存在全局最小值,因为平均平方误差是权重的凸函数 作为学习率的函数(链接视频中的aka alpha)如何?选择学习速率的两种方法: 方法1 迭代-15到2范围内的所有i 对于每一个,我让学习率为3^i 运行梯度下降20000次迭代 测量你的训练错误 为训练错误最低的i选择学习3^i 方法2 迭代-15到2范围内的所有i 对于每一个,我让学习率为3^i

对于使平均平方误差最小的梯度下降算法,该算法找到线性预测器的系数。我指的算法是。如果学习率足够小,算法发现的这些系数收敛到全局最小值。我们知道存在全局最小值,因为平均平方误差是权重的凸函数

作为学习率的函数(链接视频中的aka alpha)如何?选择学习速率的两种方法:

方法1

迭代-15到2范围内的所有i

  • 对于每一个,我让学习率为3^i
  • 运行梯度下降20000次迭代
  • 测量你的训练错误
为训练错误最低的i选择学习3^i

方法2

迭代-15到2范围内的所有i

  • 对于每一个,我让学习率为3^i
  • 运行梯度下降20000次迭代
  • 测量你的训练错误
  • 如果错误高于上一次迭代,则从上一次迭代中选择i并中断循环
方法2是否正确地假设,一旦某个学习率选择的错误增加,所有大于该学习率的学习率都会更差

在方法1中,我们检查了一个范围内的所有学习率值。在方法2中,我们说我们不需要检查所有的值-直到我们看到误差增加。

引用您的话

…并在一些固定的迭代次数后测量误差 当您看到错误增加时


嗯,根据视频,这就是我们检测收敛的方法,如果梯度下降的差异被忽略,请看我的编辑。我发现我最初的问题并不清楚