Machine learning 梯度下降全局极小值?
对于使平均平方误差最小的梯度下降算法,该算法找到线性预测器的系数。我指的算法是。如果学习率足够小,算法发现的这些系数收敛到全局最小值。我们知道存在全局最小值,因为平均平方误差是权重的凸函数 作为学习率的函数(链接视频中的aka alpha)如何?选择学习速率的两种方法: 方法1 迭代-15到2范围内的所有iMachine learning 梯度下降全局极小值?,machine-learning,gradient-descent,Machine Learning,Gradient Descent,对于使平均平方误差最小的梯度下降算法,该算法找到线性预测器的系数。我指的算法是。如果学习率足够小,算法发现的这些系数收敛到全局最小值。我们知道存在全局最小值,因为平均平方误差是权重的凸函数 作为学习率的函数(链接视频中的aka alpha)如何?选择学习速率的两种方法: 方法1 迭代-15到2范围内的所有i 对于每一个,我让学习率为3^i 运行梯度下降20000次迭代 测量你的训练错误 为训练错误最低的i选择学习3^i 方法2 迭代-15到2范围内的所有i 对于每一个,我让学习率为3^i
- 对于每一个,我让学习率为3^i
- 运行梯度下降20000次迭代
- 测量你的训练错误
- 对于每一个,我让学习率为3^i
- 运行梯度下降20000次迭代
- 测量你的训练错误
- 如果错误高于上一次迭代,则从上一次迭代中选择i并中断循环
嗯,根据视频,这就是我们检测收敛的方法,如果梯度下降的差异被忽略,请看我的编辑。我发现我最初的问题并不清楚