Machine learning 如何从视频中对真负片进行分类?

Machine learning 如何从视频中对真负片进行分类?,machine-learning,computer-vision,classification,object-detection,roc,Machine Learning,Computer Vision,Classification,Object Detection,Roc,为了测量性能,我试图绘制ROC曲线。在ROC曲线中,我必须绘制x轴的假阳性率(FPR)和y轴的真阳性率(TPR)。我们知道, FPR=FP/(FP+TN) 那么在下图中,如何检测真阴性(TN)?我使用了HOG分类器来检测人类。我用矩形1,2,3,4,5,6(或应该是7)标记,以显示应该忽略的人的对象,而不是分类为人的对象。我认为这些都是真正的负面因素 在这张照片中,我想说我的假设,正如我们所知 假阴性:结果本应为阳性,但为阴性 假阳性:结果本应为阴性,但为阳性 真阳性:结果应该是阳性的,并且是

为了测量性能,我试图绘制ROC曲线。在ROC曲线中,我必须绘制x轴的假阳性率(FPR)和y轴的真阳性率(TPR)。我们知道,

FPR=FP/(FP+TN)

那么在下图中,如何检测真阴性(TN)?我使用了HOG分类器来检测人类。我用矩形1,2,3,4,5,6(或应该是7)标记,以显示应该忽略的人的对象,而不是分类为人的对象。我认为这些都是真正的负面因素

在这张照片中,我想说我的假设,正如我们所知

假阴性:结果本应为阳性,但为阴性

假阳性:结果本应为阴性,但为阳性

真阳性:结果应该是阳性的,并且是阳性的

真阴性:结果应为阴性且为阴性


所以我认为在这个框架中,FP=0,TP=0,FN=0,但不确定TN,是6还是7,或者其他什么?如果我错了,请纠正我关于FP、TP和FN的错误。我看到了这个问题,这确实很有帮助,但我仍然需要计算这个场景的FPR。

您无法从这样的图像中计算这些值,您需要更多的数据(了解实际发生的情况)。但您需要的可能只是这些窗口的总量,这是一个常数N。现在,似乎所有这些窗口都是错误的(人身上没有),因此:

  • FP=6(您的方法声明有6个人,但这些声明都是无效的,因为它们完全关闭了-但是,如果这只是可视化问题,并且方法实际捕获了有效的人,那么应该将这6个人移到TP)
  • TP=0(它没有正确标记任何人)
  • FN=10(如果我数对了,这张图上有10个人,而所有人都不见了)
  • TN=N-16,其中N是所有分析窗口的数量,因为所有这些窗口都被正确分类为“缺少人”,最多10 FN和6 FPs,加起来就是16 FN和6 FPs
大体上

  • FP=有多少名实际非人类标记为“人类”
  • TP=有多少实际人类被标记为“人类”
  • FN=有多少实际的人被正确地忽略了(未标记为“人”)
  • TN=被正确忽略的实际非人类的数量(未标记为“人类”)

但这张图片代表什么?这个带数字的矩形是什么?这个长方形是你的算法高喊“这是人”的地方吗?如果是的话,什么是“幽冥”,有什么像人类的吗?为了使用classificaation langauge,您还需要显示算法显示“无趣”的每个地方,这可能是一个巨大的数字(因为在滑动窗口中,您有数千个“否定”答案)。是的,这些矩形和数字是“这是人”。这是一个运行视频的帧,在这种情况下,我计算每帧中的FP、TP、TN、FN。那么在这个框架中,TN=7?因为在滑动窗口中,你有成千上万个“否定”答案,“那么我如何计算FPR并绘制ROC曲线呢?”@Lejlott这听起来有点离题,可能更多的是统计中的主题。SEWell HOG方法提供了一个矩形(检测窗口)来检测人类,在这个框架中,我认为不应该检测人类,因为有些人非常小,而且不完整。因此,该算法没有检测,并且是正确的,因此我认为FP=0,因为没有检测到不完整的人类对象,TP=0,没有矩形没有人类,FN=0,没有假矩形或假检测,TN=10(如果您计算有10个类似人类的对象),仅此帧没有检测到的对象(人类)存在并正确忽略。很抱歉,我只是说我的理解和信心这完全不是它的工作原理,当然你可以定义什么是“人”的决心对你来说很重要,但你不能随意改变这些术语的定义。它返回了6帧,没有一帧是人类的(分辨率高或低),所以FP是6,周期。这里没有讨论。FN为0或10,具体取决于您的分辨率。TN不是10,因为它取决于实际分析了多少帧。这就是术语的定义。然而,作为一个元问题——如果没有人类,你根本无法定义这些对象,这不是一个正确的分类问题。你的方法将意味着你有一些预处理,预先选择了“类人对象”,算法应该只正确地分类哪些“类人”是真实的人类或非人类。这很好,但是您需要实际拥有这个方法(在脚本中,而不是作为一个人)。有吗?这是极不可能的情况,因为它要求你有一个完美的“类人”预选器,“被检测到的人类”的位置已经表明这不是它的工作原理-它清楚地选择了“作为人类”的东西,而这些东西甚至不是类人的,所以它不是你在这个问题的图像FP=2中的“10个类人事物”的子集,不是吗?因为有两个假红色的矩形在搜索人类,但在我的图像中,你们并没有像这些假矩形一样的东西。FN=1表示1个直截了当的说法,TP=3表示直截了当的说法。这就是我的想法。是的,对于单独的问题,FP=2。在你们提供的图像中有6个矩形,它们错误地表示有一个人。看看我的答案,我一直在说FP=6。除非你认为它们是正常的,因为它们“有点离谱,但足够近”,这是非常特定于领域的,但我想说的是,从图像识别的角度来看,这是无效的。