Machine learning 训练集上的平均误差等于测试集上的平均误差?

Machine learning 训练集上的平均误差等于测试集上的平均误差?,machine-learning,deep-learning,Machine Learning,Deep Learning,我正在培训一个关于图像分类问题的深度网络谷歌网。我有一个大约7300张图像的数据集,这些图像只在两个类中标记 我将我的训练集和验证集按以下比例进行划分:0.66/0.33 在训练过程中,我计算训练集和测试集的平均误差,以了解它是如何发展的 问题是这两个值总是相等或非常接近 所以,也许这不是一个问题,但我没想到会发生这种情况。因为我在训练集上训练,所以我希望训练集上的平均误差始终等于测试集上的平均误差,即使我希望这两个值收敛到大约相同的值 也许有人能告诉我这是否正常?如果这是意料之中的,为什么?如

我正在培训一个关于图像分类问题的深度网络谷歌网。我有一个大约7300张图像的数据集,这些图像只在两个类中标记

我将我的训练集和验证集按以下比例进行划分:0.66/0.33

在训练过程中,我计算训练集和测试集的平均误差,以了解它是如何发展的

问题是这两个值总是相等或非常接近

所以,也许这不是一个问题,但我没想到会发生这种情况。因为我在训练集上训练,所以我希望训练集上的平均误差始终等于测试集上的平均误差,即使我希望这两个值收敛到大约相同的值

也许有人能告诉我这是否正常?如果这是意料之中的,为什么?如果不是,你知道发生了什么吗

可能有用的进一步信息:我使用50个小批次,adam optimizer,我的损失是用tf.nn.softmax\u cross\u entropy\u和\u logitslabels=y\u计算的,logits=y\u predict,我使用0.4的落差,但当我计算平均误差时,我确保它是1


谢谢。

这很合理。您将数据划分为来自同一总体的两个随机样本。是的,考虑到样本的大小,它们应该具有几乎相同的平均值。这是大数定律的一个简单效果:从同一人群中采集的样本往往具有相同的平均值。

好的!在阅读你的Answer时,我意识到我忘了说一些甚至可能加强你论点的话:我通过旋转和翻转样本扩展了我的数据集。所以我的样本确实来自同一人群。谢谢你的回答。当你得到一个解决方案时,请记住投票给有用的东西,并接受你最喜欢的答案,即使你必须自己写,这样堆栈溢出可以正确地存档问题。