Machine learning 什么导致交叉熵损失的波动?

Machine learning 什么导致交叉熵损失的波动?,machine-learning,neural-network,Machine Learning,Neural Network,我正在对CIFAR10数据集使用Soft Max算法,对我的交叉熵损失图有一些疑问。我用该算法获得了40%的准确率,因此准确率正在提高。令人困惑的部分是解释交叉熵图的结果,因为它与我在网上看到的任何类似问题的图都不相似。我想知道是否有人能提供一些关于如何解释以下图表的见解。在y上是丢失,在x上是批号。这两个图分别适用于批次大小1和100 批量1: 批量100: 是什么导致了这些波动: (小型)批次只是CIFAR-10的一小部分。有时你会选择简单的例子,有时你会选择困难的例子。或者,在模型调整到

我正在对
CIFAR10
数据集使用
Soft Max算法
,对我的交叉熵损失图有一些疑问。我用该算法获得了40%的准确率,因此准确率正在提高。令人困惑的部分是解释交叉熵图的结果,因为它与我在网上看到的任何类似问题的图都不相似。我想知道是否有人能提供一些关于如何解释以下图表的见解。在
y
上是丢失,在x上是批号。这两个图分别适用于批次大小1和100

批量1:

批量100:

是什么导致了这些波动: (小型)批次只是CIFAR-10的一小部分。有时你会选择简单的例子,有时你会选择困难的例子。或者,在模型调整到上一批之后,看似简单的事情可能只是困难。毕竟,它被称为随机梯度下降。例如,见讨论

解读这些情节: 批次大小100:它明显在改进:-)我建议你取整个批次的交叉熵的平均值,而不是求和

批量1:前~40k步骤似乎有一些改进。那可能就是振荡。你需要这样做

其他相关要点: Softmax不是一种算法,但它可以将任意值的向量转换为非负向量,其总和为1,因此可以解释为概率

那些情节很拙劣。尝试使用小圆点大小的散点图

绘制准确度和交叉熵(在不同的尺度上,具有更粗略的时间分辨率)以获得它们之间关系的感觉