Tensorflow 为什么训练错误跳跃而不改变学习率？_Tensorflow_Machine Learning_Deep Learning_Gradient Descent

Tensorflow 为什么训练错误跳跃而不改变学习率？

tensorflow machine-learning deep-learning

Tensorflow 为什么训练错误跳跃而不改变学习率？,tensorflow,machine-learning,deep-learning,gradient-descent,Tensorflow,Machine Learning,Deep Learning,Gradient Descent,我正在训练一个大约有10个卷积层和几个池层的卷积网络。训练集约为250000个样本（16000个长度向量）。在第一个纪元中，大约50%的训练和测试误差从68%上升到92%。学习率相同（批次梯度下降）。批量大小为32。是什么导致了跳转，如何解释跳转在斯坦福大学的深度学习课程中找到了这张幻灯片给出的解释是，这是不良参数初始化的症状。有一段时间几乎没有学习，然后突然参数调整到正确的方向，你会在准确性和/或损失方面得到显著的提高我认为检查较小的学习率可能是件好事——DNN可以赶上当地的最低学习率，

我正在训练一个大约有10个卷积层和几个池层的卷积网络。训练集约为250000个样本（16000个长度向量）。在第一个纪元中，大约50%的训练和测试误差从68%上升到92%。学习率相同（批次梯度下降）。批量大小为32。是什么导致了跳转，如何解释跳转

在斯坦福大学的深度学习课程中找到了这张幻灯片

给出的解释是，这是不良参数初始化的症状。有一段时间几乎没有学习，然后突然参数调整到正确的方向，你会在准确性和/或损失方面得到显著的提高

我认为检查较小的学习率可能是件好事——DNN可以赶上当地的最低学习率，而不是全球的最低学习率。