Deep learning 为什么加载Pytorch型号';谁的损失大大增加了?

Deep learning 为什么加载Pytorch型号';谁的损失大大增加了?,deep-learning,pytorch,face-recognition,cnn,arcface,Deep Learning,Pytorch,Face Recognition,Cnn,Arcface,我试着用参考来训练Arcface 据我所知,Arcface需要在CASIA webface上进行超过200次的大批量培训 在100个训练时期内,我停止了一段时间的训练,因为我需要使用GPU完成其他任务。并保存模型(Resnet)和边距的检查点。在停止前,其损失记录在0.3~1.0之间,训练准确率提高到80~95% 当我通过使用load_sate加载检查点文件来恢复Arcface训练时,在处理第一批时,这似乎是正常的。但突然损失急剧增加,准确度变得非常低 它的损失突然增加了。这是怎么发生的?我没有

我试着用参考来训练Arcface

据我所知,Arcface需要在CASIA webface上进行超过200次的大批量培训

在100个训练时期内,我停止了一段时间的训练,因为我需要使用GPU完成其他任务。并保存模型(Resnet)和边距的检查点。在停止前,其损失记录在0.3~1.0之间,训练准确率提高到80~95%

当我通过使用load_sate加载检查点文件来恢复Arcface训练时,在处理第一批时,这似乎是正常的。但突然损失急剧增加,准确度变得非常低

它的损失突然增加了。这是怎么发生的?我没有别的办法,所以无论如何继续训练,但我不认为损失正在减少,即使这是一个训练了100多个时代的模型

当我搜索类似的问题时,他们告诉我问题是优化器没有保存(因为引用github页面没有保存优化器,我也没有。这是真的吗

如果你看到这个! 您正在按gamma衰减每个参数组的学习速率。 这改变了您的学习速度,因为您已经达到了第100个纪元。此外,您在保存模型时没有保存优化器状态。
这使得您的代码在恢复训练后以起始lr(即0.1)开始。 这又增加了你的损失


如果您觉得这个有用,请投票

,这可能是因为没有保存优化器状态。另外,您是否确保您没有以更高的学习率开始?由于您的评论,我解决了这个问题。我提到的github代码已将初始学习率值设置为0.1,当我将其更改为更小的值时,准确性不会急剧下降谢谢你的建议。下次我最好保存优化器。。