Machine learning RMSprop、Adam、ADADDelta使用Caffe不会提高测试精度_Machine Learning_Computer Vision_Deep Learning_Caffe_Pycaffe

Machine learning RMSprop、Adam、ADADDelta使用Caffe不会提高测试精度

machine-learning computer-vision deep-learning

Machine learning RMSprop、Adam、ADADDelta使用Caffe不会提高测试精度,machine-learning,computer-vision,deep-learning,caffe,pycaffe,Machine Learning,Computer Vision,Deep Learning,Caffe,Pycaffe,我正在特斯拉K40上的图像数据集上使用Caffe进行微调。使用batch size=47，solver\u type=SGD，base\u lr=0.001，lr\u policy=“step”，momentum=0.9，gamma=0.1，在100迭代中训练损失减少，测试精度从2%-50%，这是非常好的当使用其他优化工具，如RMSPROP、ADAM和ADADELTA时，训练损失在1000次迭代后几乎保持不变，且测试精度对于RMSPROP，我已经更改了前面提到的各个参数对于ADAM，我已经

我正在

特斯拉K40

上的图像数据集上使用

Caffe

进行微调。使用

batch size=47

，

solver\u type=SGD

，

base\u lr=0.001

，

lr\u policy=“step”

，

momentum=0.9

，

gamma=0.1

，在

迭代中

训练损失减少，测试精度从2%-50%
，这是非常好的
当使用其他优化工具，如RMSPROP
、ADAM
和ADADELTA
时，训练损失
在1000次
迭代后几乎保持不变，且测试精度

对于RMSPROP
，我已经更改了前面提到的各个参数
对于ADAM
，我已经更改了前面提到的各个参数
对于ADADELTA
，我已经更改了前面提到的各个参数
有人能告诉我我做错了什么吗？
我看到了与pir类似的结果：当给定SGD使用的相同基准时，Adam会发散。当我将base_lr降低到其原始值的1/100时，Adam突然收敛，并给出了很好的结果。
我发现，对于不同于SGD的解算器，应该使用较低的学习率。但是，我不太清楚为什么。与SGD相比，您的学习率降低了多少？如果我使用与SGD相同的学习率，RMSProp算法会发散，而它会收敛（acc略低于经过良好调整的SGD），学习率为原来的1/3。然而，这可能是非常具体的问题。@VeilEclipse:你解决你的问题了吗？我也遇到了这个问题。我使用Adam/不使用Adam得到相同的结果。我使用了与SGDThanks相同的base\u lr
作为您的观点。这意味着如果SGD的base\u lr
：1e-3，则Adam的base\u lr:1e-5
。是不是太小了？我发现1e-4对Adam来说是一个很好的学习率。您还应该在您的数据集上尝试1e-3和1e-5，看看您是否获得了良好的性能在我的情况下，Adam的lr_比率是SGD的两倍。我也尝试了50%，150%，但200%的lr_率对我来说是最好的