Machine learning RMSprop、Adam、ADADDelta使用Caffe不会提高测试精度

Machine learning RMSprop、Adam、ADADDelta使用Caffe不会提高测试精度,machine-learning,computer-vision,deep-learning,caffe,pycaffe,Machine Learning,Computer Vision,Deep Learning,Caffe,Pycaffe,我正在特斯拉K40上的图像数据集上使用Caffe进行微调。使用batch size=47,solver\u type=SGD,base\u lr=0.001,lr\u policy=“step”,momentum=0.9,gamma=0.1,在100迭代中训练损失减少,测试精度从2%-50%,这是非常好的 当使用其他优化工具,如RMSPROP、ADAM和ADADELTA时,训练损失在1000次迭代后几乎保持不变,且测试精度 对于RMSPROP,我已经更改了前面提到的各个参数 对于ADAM,我已经

我正在
特斯拉K40
上的图像数据集上使用
Caffe
进行微调。使用
batch size=47
solver\u type=SGD
base\u lr=0.001
lr\u policy=“step”
momentum=0.9
gamma=0.1
,在
100
迭代中
训练损失减少,测试精度从
2%-50%
,这是非常好的

当使用其他优化工具,如
RMSPROP
ADAM
ADADELTA
时,
训练损失
1000次
迭代后几乎保持不变,且
测试精度

对于
RMSPROP
,我已经更改了前面提到的各个参数

对于
ADAM
,我已经更改了前面提到的各个参数

对于
ADADELTA
,我已经更改了前面提到的各个参数


有人能告诉我我做错了什么吗?

我看到了与pir类似的结果:当给定SGD使用的相同基准时,Adam会发散。当我将base_lr降低到其原始值的1/100时,Adam突然收敛,并给出了很好的结果。

我发现,对于不同于SGD的解算器,应该使用较低的学习率。但是,我不太清楚为什么。与SGD相比,您的学习率降低了多少?如果我使用与SGD相同的学习率,RMSProp算法会发散,而它会收敛(acc略低于经过良好调整的SGD),学习率为原来的1/3。然而,这可能是非常具体的问题。@VeilEclipse:你解决你的问题了吗?我也遇到了这个问题。我使用Adam/不使用Adam得到相同的结果。我使用了与SGDThanks相同的
base\u lr
作为您的观点。这意味着如果SGD的
base\u lr
:1e-3,则Adam的
base\u lr:1e-5
。是不是太小了?我发现1e-4对Adam来说是一个很好的学习率。您还应该在您的数据集上尝试1e-3和1e-5,看看您是否获得了良好的性能在我的情况下,Adam的lr_比率是SGD的两倍。我也尝试了50%,150%,但200%的lr_率对我来说是最好的