Keras 为什么模型通常从降低培训期间的学习率中获益

Keras 为什么模型通常从降低培训期间的学习率中获益,keras,learning-rate,Keras,Learning Rate,在Keras关于ReducelRon平台类()的官方文件中 他们提到 “模型通常受益于降低学习率” 为什么会这样? 至少对我来说,这是违反直觉的,因为据我所知,更高的学习率可以让我从目前的职位上走得更远 谢谢 训练神经网络时,不应考虑过高或过低的学习率。较大的学习率可能会错过全局最小值,在极端情况下,可能会导致模型完全偏离最优解。另一方面,较小的学习率可以保持在局部最小值 ReducelRon平台的目的是跟踪模型的性能,并在x个历次没有改善时降低学习率。直觉是,该模型以当前学习率逼近次优解,并在

在Keras关于ReducelRon平台类()的官方文件中 他们提到

“模型通常受益于降低学习率”

为什么会这样? 至少对我来说,这是违反直觉的,因为据我所知,更高的学习率可以让我从目前的职位上走得更远


谢谢

训练神经网络时,不应考虑过高或过低的学习率。较大的学习率可能会错过全局最小值,在极端情况下,可能会导致模型完全偏离最优解。另一方面,较小的学习率可以保持在局部最小值

ReducelRon平台的目的是跟踪模型的性能,并在x个历次没有改善时降低学习率。直觉是,该模型以当前学习率逼近次优解,并在全局最小值附近振荡。降低学习率将使模型能够采取较小的学习步骤来获得成本函数的最优解


请在您的回答中添加以下内容的编辑:如果您添加的图像是一个局部最小值,但我们在其他地方有一个更好的局部最小值,那么减少也可能导致我们留在这个位置,而不是“逃避”,并找到更好的最小值,对吗?是的,没错,但请记住,您可以在函数reducelRonplation中调整参数Patience,以定义您认为适合让当前lr“逃逸”此局部最小值的历元数。如果算法在初始lr中停留在局部最小值,那么这可能不是开始时的最佳算法。此外,您还可以尝试周期性学习率,以克服这些类型的问题。你可能会得到更多的反对票,因为你的问题不是关于代码的,我建议你把它贴在我不知道堆栈溢出只是为了明确的代码问题..10x。