Machine learning 学习率对神经网络的影响

Machine learning 学习率对神经网络的影响,machine-learning,neural-network,training-data,Machine Learning,Neural Network,Training Data,我有一个大约100个数值的数据集。我已将神经网络的学习率设置为0.0001。我已经在数据集上成功地训练了100多万次。但我的问题是,神经网络中非常低的学习率会产生什么影响?低学习率主要意味着收敛速度慢:你用较小的步长向下移动损失函数(步长就是学习率)。 如果你的函数是凸的,这不是一个问题,你会等待更多,但你会得到一个好的解决方案 如果像深度神经网络一样,你的函数不是凸函数,那么低学习率可能会导致达到一个“好”的最优值,而不是最佳值(陷入局部最小值,而没有按要求跳出它的步骤) 这就是为什么有不同的

我有一个大约100个数值的数据集。我已将神经网络的学习率设置为0.0001。我已经在数据集上成功地训练了100多万次。但我的问题是,神经网络中非常低的学习率会产生什么影响?

低学习率主要意味着收敛速度慢:你用较小的步长向下移动损失函数(步长就是学习率)。 如果你的函数是凸的,这不是一个问题,你会等待更多,但你会得到一个好的解决方案

如果像深度神经网络一样,你的函数不是凸函数,那么低学习率可能会导致达到一个“好”的最优值,而不是最佳值(陷入局部最小值,而没有按要求跳出它的步骤)


这就是为什么有不同的优化算法是自适应的:像ADAM、RMSProp等算法。。。网络中的每个权重具有不同的学习率(每个学习率从相同的值开始)。通过这种方式,优化算法可以独立地处理每个参数,目的是找到更好的解决方案(并让初始学习率的选择不那么关键)

低学习率主要意味着收敛速度慢:你正在以较小的步长向下移动损失函数(步长就是学习率)。 如果你的函数是凸的,这不是一个问题,你会等待更多,但你会得到一个好的解决方案

如果像深度神经网络一样,你的函数不是凸函数,那么低学习率可能会导致达到一个“好”的最优值,而不是最佳值(陷入局部最小值,而没有按要求跳出它的步骤)


这就是为什么有不同的优化算法是自适应的:像ADAM、RMSProp等算法。。。网络中的每个权重具有不同的学习率(每个学习率从相同的值开始)。通过这种方式,优化算法可以独立处理每个参数,目的是找到更好的解决方案(并使初始学习率的选择不那么重要)

谢谢您的回答。非常有用:-)谢谢你的回答。非常有用:-)