Deep learning 此时,向训练集中添加新数据将不会提高训练精度

Deep learning 此时,向训练集中添加新数据将不会提高训练精度,deep-learning,conv-neural-network,training-data,yolo,Deep Learning,Conv Neural Network,Training Data,Yolo,这是一个关于训练CNN的更一般的问题,但我用的是YOLO。 我已经开始我的“人”检测训练集,通过标记来自不同摄像机视频的一些数据(在类似的环境中)。。。。每次我为新相机添加新数据时,我都在重新训练YOLO,这实际上提高了该相机的检测能力。对于培训,我将数据随机分成培训/验证集。我使用验证集来计算精度。这不是过度拟合,因为之前的所有数据也用于培训 现在,我已经收集了超过10万个标签数据。因为我的数据集相当大,所以我希望在这一点上不必再训练了。但看起来我还需要这么做。如果我得到一个新的摄像机视频,标

这是一个关于训练CNN的更一般的问题,但我用的是YOLO。 我已经开始我的“人”检测训练集,通过标记来自不同摄像机视频的一些数据(在类似的环境中)。。。。每次我为新相机添加新数据时,我都在重新训练YOLO,这实际上提高了该相机的检测能力。对于培训,我将数据随机分成培训/验证集。我使用验证集来计算精度。这不是过度拟合,因为之前的所有数据也用于培训

现在,我已经收集了超过10万个标签数据。因为我的数据集相当大,所以我希望在这一点上不必再训练了。但看起来我还需要这么做。如果我得到一个新的摄像机视频,标记500-1000个样本,将它们添加到我庞大的数据集中并再次训练,那么这台摄像机的精确度正在提高。 我真的不明白为什么。为什么我仍然需要向集合中添加新数据?为什么新数据的准确度提高了很多,而已有的数千个数据中却有“绘制”的数据?是否有一点我可以停止训练,因为添加新数据不会提高准确性


谢谢分享你的想法和想法

有趣的问题。如果您的数据质量良好,并且培训程序“完美”,您将始终能够更好地概括。想一想你想要检测的所有可能的不同图像。您只使用了其中的一个示例,希望它足以概括。你可以继续增加你的数据集,可能会多获得0.01%,问题是你想什么时候停止。您的模型精度永远不会达到100%

我的意见是:如果你的准确率在95%以上,如果你的项目是个人的,没有人的生命依赖于它,那么就停止生成更多的数据。考虑后处理以改进结果。由于您在视频中检测到,可能会尝试跟踪人的移动,因此如果在一帧中未检测到,并且您拥有来自前一帧和后一帧的信息,您可能可以做一些有趣的事情


希望有帮助,干杯

当然,要创建一个好的模型,您需要尽可能多的图像。但是您必须注意您的模型是否变得过拟合,即您的模型不再学习,平均损失越来越高,地图越来越低,当发生过度拟合时,您必须停止训练并选择保存在darknet/backup/folder中的最佳重量

对于YOLO,当你应该停止训练时,你可以遵循一些指导原则。最明显的是:

在培训期间,您将看到不同的错误指示,当不再降低0.XXXXXXX时,您应该停止:

Region Avg IOU: 0.798363, Class: 0.893232, Obj: 0.700808, No Obj: 0.004567, Avg Recall: 1.000000, count: 8 Region Avg IOU: 0.800677, Class: 0.892181, Obj: 0.701590, No Obj: 0.004574, Avg Recall: 1.000000, count: 8

9002: 0.211667, 0.060730 avg, 0.001000 rate, 3.868000 seconds, 576128 images Loaded: 0.000000 seconds
9002-迭代次数(批次数)
0.060730平均值-平均损失(误差)-越低越好

当您看到平均损失0.xxxxxx平均值在多次迭代中不再减少时,您应该停止培训。最终平均损失可以从0.05(对于小型模型和简单数据集)到3.0(对于大型模型和困难数据集)。我个人认为平均损耗为0.06的型号就足够了


AlexeyAB详细解释了他的github回购协议,请阅读此部分

谢谢您的回复。我知道什么时候停止某项训练。但我的问题不是什么时候停止训练,而是什么时候不必再训练了。这意味着我所有的数据都应该包括我想在任何类似环境中检测到的所有对象。我想这没有限制,如果我错了,请纠正我。因为深度学习模式总是可以改进的,我从未听过这样的指标告诉你停止添加更多数据,停止培训过程。是的,没有指标,我想我更多地询问人们的知识和经验!谢谢你的回复。这实际上是我的工作,我们每次都会有新的客户,有新的摄像头等等。。。我想我只是对CNN的力量感到惊讶,它仍然可以学习并考虑到我每次给它的新数据!美好的然后永远不要停止提高准确性,直到不值得这样做的钱!