Tensorflow 为什么训练错误跳跃而不改变学习率?

Tensorflow 为什么训练错误跳跃而不改变学习率?,tensorflow,machine-learning,deep-learning,gradient-descent,Tensorflow,Machine Learning,Deep Learning,Gradient Descent,我正在训练一个大约有10个卷积层和几个池层的卷积网络。训练集约为250000个样本(16000个长度向量)。在第一个纪元中,大约50%的训练和测试误差从68%上升到92%。学习率相同(批次梯度下降)。批量大小为32。是什么导致了跳转,如何解释跳转 在斯坦福大学的深度学习课程中找到了这张幻灯片 给出的解释是,这是不良参数初始化的症状。有一段时间几乎没有学习,然后突然参数调整到正确的方向,你会在准确性和/或损失方面得到显著的提高 我认为检查较小的学习率可能是件好事——DNN可以赶上当地的最低学习率,

我正在训练一个大约有10个卷积层和几个池层的卷积网络。训练集约为250000个样本(16000个长度向量)。在第一个纪元中,大约50%的训练和测试误差从68%上升到92%。学习率相同(批次梯度下降)。批量大小为32。是什么导致了跳转,如何解释跳转


在斯坦福大学的深度学习课程中找到了这张幻灯片


给出的解释是,这是不良参数初始化的症状。有一段时间几乎没有学习,然后突然参数调整到正确的方向,你会在准确性和/或损失方面得到显著的提高

我认为检查较小的学习率可能是件好事——DNN可以赶上当地的最低学习率,而不是全球的最低学习率。