Optimization PyTorch-误用损失函数(负对数似然)的模型性能优越?

Optimization PyTorch-误用损失函数(负对数似然)的模型性能优越?,optimization,deep-learning,pytorch,log-likelihood,Optimization,Deep Learning,Pytorch,Log Likelihood,我误读了PyTorch的NLLLoss(),意外地将模型的概率传递给损失函数,而不是模型的日志概率,这正是函数所期望的。然而,当我在这个误用的损失函数下训练模型时,模型(a)学习速度更快,(b)学习更稳定,(b)达到更低的损失,(d)在分类任务中表现更好 我没有一个最小的工作示例,但我很好奇是否有其他人经历过这种情况,或者知道为什么会这样?有什么可能的假设吗 我的一个假设是,关于误用损失函数的梯度更稳定,因为导数不是按1/模型输出概率缩放的

我误读了PyTorch的
NLLLoss()
,意外地将模型的概率传递给损失函数,而不是模型的日志概率,这正是函数所期望的。然而,当我在这个误用的损失函数下训练模型时,模型(a)学习速度更快,(b)学习更稳定,(b)达到更低的损失,(d)在分类任务中表现更好

我没有一个最小的工作示例,但我很好奇是否有其他人经历过这种情况,或者知道为什么会这样?有什么可能的假设吗

我的一个假设是,关于误用损失函数的梯度更稳定,因为导数不是按1/模型输出概率缩放的