Deep learning 交叉熵损失-为什么损失不受样本出错概率的影响？_Deep Learning

Deep learning 交叉熵损失-为什么损失不受样本出错概率的影响？

deep-learning

Deep learning 交叉熵损失-为什么损失不受样本出错概率的影响？,deep-learning,Deep Learning,考虑一个由3类组成的分类网络我使用softmax作为最后一层和交叉熵损失让我们考虑通过网络运行的一个示例（x，y）< /代码>，其中这个示例的正确类是第一个类。让我们考虑两种情况（两种不同的网络样本）： softmax输出（0.5,0.49,0.01） softmax输出（0.5,0.25,0.25）对于两个样本，损失都是-log（0.5），但我的直觉是，第一个案例的损失应该更高，因为它非常接近于预测错误我错了吗？为什么这不是问题？在softmax交叉熵中，您只关心正确类的可能性。如果

考虑一个由3类组成的分类网络

我使用softmax作为最后一层和交叉熵损失

让我们考虑通过网络运行的一个示例<代码>（x，y）< /代码>，其中这个示例的正确类是第一个类。

让我们考虑两种情况（两种不同的网络样本）：

softmax输出（0.5,0.49,0.01）

softmax输出（0.5,0.25,0.25）

对于两个样本，损失都是

-log（0.5）

，但我的直觉是，第一个案例的损失应该更高，因为它非常接近于预测错误

我错了吗？为什么这不是问题？

在softmax交叉熵中，您只关心正确类的可能性。如果可能性很大，你会损失一点；如果可能性不大，你会损失一点。在类似于1的情况下，第二类具有更高的梯度，并且被梯度下降推到比第二类情况下的第二类更大的程度

在分类任务中，您实际优化的是准确度，在准确度方面，您只关心所有示例的正确分类，而不关心分类的程度。无论如何，logit都是不可信的，因为它们倾向于输出与典型输入集相去甚远的元素的真正自信的预测