Deep learning 为什么加载Pytorch型号'；谁的损失大大增加了？_Deep Learning_Pytorch_Face Recognition_Cnn_Arcface

Deep learning 为什么加载Pytorch型号'；谁的损失大大增加了？

deep-learning pytorch

Deep learning 为什么加载Pytorch型号'；谁的损失大大增加了？,deep-learning,pytorch,face-recognition,cnn,arcface,Deep Learning,Pytorch,Face Recognition,Cnn,Arcface,我试着用参考来训练Arcface 据我所知，Arcface需要在CASIA webface上进行超过200次的大批量培训在100个训练时期内，我停止了一段时间的训练，因为我需要使用GPU完成其他任务。并保存模型（Resnet）和边距的检查点。在停止前，其损失记录在0.3~1.0之间，训练准确率提高到80~95% 当我通过使用load_sate加载检查点文件来恢复Arcface训练时，在处理第一批时，这似乎是正常的。但突然损失急剧增加，准确度变得非常低它的损失突然增加了。这是怎么发生的？我没有

我试着用参考来训练Arcface

据我所知，Arcface需要在CASIA webface上进行超过200次的大批量培训

在100个训练时期内，我停止了一段时间的训练，因为我需要使用GPU完成其他任务。并保存模型（Resnet）和边距的检查点。在停止前，其损失记录在0.3~1.0之间，训练准确率提高到80~95%

当我通过使用load_sate加载检查点文件来恢复Arcface训练时，在处理第一批时，这似乎是正常的。但突然损失急剧增加，准确度变得非常低

它的损失突然增加了。这是怎么发生的？我没有别的办法，所以无论如何继续训练，但我不认为损失正在减少，即使这是一个训练了100多个时代的模型

当我搜索类似的问题时，他们告诉我问题是优化器没有保存（因为引用github页面没有保存优化器，我也没有。这是真的吗

如果你看到这个！您正在按gamma衰减每个参数组的学习速率。这改变了您的学习速度，因为您已经达到了第100个纪元。此外，您在保存模型时没有保存优化器状态。
这使得您的代码在恢复训练后以起始lr（即0.1）开始。这又增加了你的损失

如果您觉得这个有用，请投票

，这可能是因为没有保存优化器状态。另外，您是否确保您没有以更高的学习率开始？由于您的评论，我解决了这个问题。我提到的github代码已将初始学习率值设置为0.1，当我将其更改为更小的值时，准确性不会急剧下降谢谢你的建议。下次我最好保存优化器。。