Optimization 神经网络的高变异性损失

Optimization 神经网络的高变异性损失,optimization,machine-learning,tensorflow,neural-network,keras,Optimization,Machine Learning,Tensorflow,Neural Network,Keras,每个历元之间的准确度和损失都有很高的可变性,高达10%。我的准确率一直在下降,当我开始增加辍学率时,我的损失也在下降。然而,我真的需要这个辍学者,你有什么想法可以让我平静下来吗?如果不知道你在做什么,很难说出任何具体的事情。但因为您提到您的数据集非常小:500个样本,所以我认为您10%的性能提升并不令人惊讶。还有一些想法: 如果可以,一定要使用更大的数据集。如果无法收集更大的数据集,请尝试扩充现有的数据集 尝试一个较小的退出,看看它是如何进行的,尝试不同的正则化(退出不是唯一的选择) 您的数据

每个历元之间的准确度和损失都有很高的可变性,高达10%。我的准确率一直在下降,当我开始增加辍学率时,我的损失也在下降。然而,我真的需要这个辍学者,你有什么想法可以让我平静下来吗?

如果不知道你在做什么,很难说出任何具体的事情。但因为您提到您的数据集非常小:500个样本,所以我认为您10%的性能提升并不令人惊讶。还有一些想法:

  • 如果可以,一定要使用更大的数据集。如果无法收集更大的数据集,请尝试扩充现有的数据集
  • 尝试一个较小的退出,看看它是如何进行的,尝试不同的正则化(退出不是唯一的选择)
  • 您的数据很小,可以运行200多次迭代
  • 查看您的模型在测试集上的执行情况,可能只是严重地过度拟合了数据

    • 不知道自己在做什么,很难说出具体的话。但因为您提到您的数据集非常小:500个样本,所以我认为您10%的性能提升并不令人惊讶。还有一些想法:

      • 如果可以,一定要使用更大的数据集。如果无法收集更大的数据集,请尝试扩充现有的数据集
      • 尝试一个较小的退出,看看它是如何进行的,尝试不同的正则化(退出不是唯一的选择)
      • 您的数据很小,可以运行200多次迭代
      • 查看您的模型在测试集上的执行情况,可能只是严重地过度拟合了数据

      除了数据集非常小这一事实之外,在使用辍学正则化的训练过程中,损失函数不再得到很好的定义,我认为精度也有偏差。因此,应评估任何跟踪指标,不得中途退出。值得注意的是,在训练期间计算精度时,keras不会将其关闭。

      除了数据集非常小的事实之外,在使用退出正则化的训练期间,损失函数不再得到很好的定义,我认为精度也有偏差。因此,应评估任何跟踪指标,不得中途退出。在培训期间,keras在计算精度时不会关闭它。

      您是在批量还是在整个培训和验证数据集上测量精度?看起来你正在使用一批(这不完全正确)是的!如果可以的话,我会选择更大的批次。。。大多数优化方法都是随机的。。。但是如果你增加批量大小,差异应该更小。。。我想是的,对不起,我应该声明我处理的数据集非常有限,大约500个样本,所以我只是在使用整个数据集。我将致力于扩展它,但我认为最多我将获得约1000个样本。所以仍然很小,您是在测量批次的精度还是在整个培训和验证数据集的精度?看起来你正在使用一批(这不完全正确)是的!如果可以的话,我会选择更大的批次。。。大多数优化方法都是随机的。。。但是如果你增加批量大小,差异应该更小。。。我想是的,对不起,我应该声明我处理的数据集非常有限,大约500个样本,所以我只是在使用整个数据集。我将致力于扩展它,但我认为最多我将获得约1000个样本。所以还是很小嗨,是的,我开始认为这肯定是数据大小的问题。较小或无脱落会降低可变性,但会导致过度拟合。应该遵循黄金法则,数据集大小是第一位的。谢谢你的想法。@DavidArmstrong这只是因为有了500个样本,你很容易用几乎所有的NN进行过度拟合。是的,在使用如此小的数据集时,我已经采取了一些预防措施(提前停止、高百分比退出等)。这是一个非常独特的数据集,具有很高的可变性,一个基本的SVM可以得到~0.5的MCC。但这是一个我感兴趣的问题,一个似乎没有固定答案的问题,你能使用的最小数据集是什么。我在生物医学文献中看到过超过200个大小的例子,这看起来很小,我想有计算机科学背景的人会有非常不同的观点。嗨,是的,我开始认为这肯定是数据大小。较小或无脱落会降低可变性,但会导致过度拟合。应该遵循黄金法则,数据集大小是第一位的。谢谢你的想法。@DavidArmstrong这只是因为有了500个样本,你很容易用几乎所有的NN进行过度拟合。是的,在使用如此小的数据集时,我已经采取了一些预防措施(提前停止、高百分比退出等)。这是一个非常独特的数据集,具有很高的可变性,一个基本的SVM可以得到~0.5的MCC。但这是一个我感兴趣的问题,一个似乎没有固定答案的问题,你能使用的最小数据集是什么。我在生物医学文献中看到过超过200个的例子,看起来很小,我想有计算机科学背景的人会对这个问题有非常不同的看法。