Machine learning RMSprop、Adam、ADADDelta使用Caffe不会提高测试精度
我正在Machine learning RMSprop、Adam、ADADDelta使用Caffe不会提高测试精度,machine-learning,computer-vision,deep-learning,caffe,pycaffe,Machine Learning,Computer Vision,Deep Learning,Caffe,Pycaffe,我正在特斯拉K40上的图像数据集上使用Caffe进行微调。使用batch size=47,solver\u type=SGD,base\u lr=0.001,lr\u policy=“step”,momentum=0.9,gamma=0.1,在100迭代中训练损失减少,测试精度从2%-50%,这是非常好的 当使用其他优化工具,如RMSPROP、ADAM和ADADELTA时,训练损失在1000次迭代后几乎保持不变,且测试精度 对于RMSPROP,我已经更改了前面提到的各个参数 对于ADAM,我已经
特斯拉K40
上的图像数据集上使用Caffe
进行微调。使用batch size=47
,solver\u type=SGD
,base\u lr=0.001
,lr\u policy=“step”
,momentum=0.9
,gamma=0.1
,在100
迭代中训练损失减少,测试精度从2%-50%
,这是非常好的
当使用其他优化工具,如RMSPROP
、ADAM
和ADADELTA
时,训练损失
在1000次
迭代后几乎保持不变,且测试精度
对于RMSPROP
,我已经更改了前面提到的各个参数
对于ADAM
,我已经更改了前面提到的各个参数
对于ADADELTA
,我已经更改了前面提到的各个参数
有人能告诉我我做错了什么吗?我看到了与pir类似的结果:当给定SGD使用的相同基准时,Adam会发散。当我将base_lr降低到其原始值的1/100时,Adam突然收敛,并给出了很好的结果。我发现,对于不同于SGD的解算器,应该使用较低的学习率。但是,我不太清楚为什么。与SGD相比,您的学习率降低了多少?如果我使用与SGD相同的学习率,RMSProp算法会发散,而它会收敛(acc略低于经过良好调整的SGD),学习率为原来的1/3。然而,这可能是非常具体的问题。@VeilEclipse:你解决你的问题了吗?我也遇到了这个问题。我使用Adam/不使用Adam得到相同的结果。我使用了与SGDThanks相同的base\u lr
作为您的观点。这意味着如果SGD的base\u lr
:1e-3,则Adam的base\u lr:1e-5
。是不是太小了?我发现1e-4对Adam来说是一个很好的学习率。您还应该在您的数据集上尝试1e-3和1e-5,看看您是否获得了良好的性能在我的情况下,Adam的lr_比率是SGD的两倍。我也尝试了50%,150%,但200%的lr_率对我来说是最好的