Machine learning 如何从视频中对真负片进行分类？_Machine Learning_Computer Vision_Classification_Object Detection_Roc

Machine learning 如何从视频中对真负片进行分类？

machine-learning computer-vision

Machine learning 如何从视频中对真负片进行分类？,machine-learning,computer-vision,classification,object-detection,roc,Machine Learning,Computer Vision,Classification,Object Detection,Roc,为了测量性能，我试图绘制ROC曲线。在ROC曲线中，我必须绘制x轴的假阳性率（FPR）和y轴的真阳性率（TPR）。我们知道, FPR=FP/（FP+TN）那么在下图中，如何检测真阴性（TN）？我使用了HOG分类器来检测人类。我用矩形1,2,3,4,5,6（或应该是7）标记，以显示应该忽略的人的对象，而不是分类为人的对象。我认为这些都是真正的负面因素在这张照片中，我想说我的假设，正如我们所知假阴性：结果本应为阳性，但为阴性假阳性：结果本应为阴性，但为阳性真阳性：结果应该是阳性的，并且是

为了测量性能，我试图绘制ROC曲线。在ROC曲线中，我必须绘制x轴的假阳性率（FPR）和y轴的真阳性率（TPR）。我们知道,

FPR=FP/（FP+TN）

那么在下图中，如何检测真阴性（TN）？我使用了HOG分类器来检测人类。我用矩形1,2,3,4,5,6（或应该是7）标记，以显示应该忽略的人的对象，而不是分类为人的对象。我认为这些都是真正的负面因素

在这张照片中，我想说我的假设，正如我们所知

假阴性：结果本应为阳性，但为阴性

假阳性：结果本应为阴性，但为阳性

真阳性：结果应该是阳性的，并且是阳性的

真阴性：结果应为阴性且为阴性

所以我认为在这个框架中，FP=0，TP=0，FN=0，但不确定TN，是6还是7，或者其他什么？如果我错了，请纠正我关于FP、TP和FN的错误。我看到了这个问题，这确实很有帮助，但我仍然需要计算这个场景的FPR。

您无法从这样的图像中计算这些值，您需要更多的数据（了解实际发生的情况）。但您需要的可能只是这些窗口的总量，这是一个常数N。现在，似乎所有这些窗口都是错误的（人身上没有），因此：

FP=6（您的方法声明有6个人，但这些声明都是无效的，因为它们完全关闭了-但是，如果这只是可视化问题，并且方法实际捕获了有效的人，那么应该将这6个人移到TP）
TP=0（它没有正确标记任何人）
FN=10（如果我数对了，这张图上有10个人，而所有人都不见了）
TN=N-16，其中N是所有分析窗口的数量，因为所有这些窗口都被正确分类为“缺少人”，最多10 FN和6 FPs，加起来就是16 FN和6 FPs

大体上

FP=有多少名实际非人类标记为“人类”
TP=有多少实际人类被标记为“人类”
FN=有多少实际的人被正确地忽略了（未标记为“人”）
TN=被正确忽略的实际非人类的数量（未标记为“人类”）

但这张图片代表什么？这个带数字的矩形是什么？这个长方形是你的算法高喊“这是人”的地方吗？如果是的话，什么是“幽冥”，有什么像人类的吗？为了使用classificaation langauge，您还需要显示算法显示“无趣”的每个地方，这可能是一个巨大的数字（因为在滑动窗口中，您有数千个“否定”答案）。是的，这些矩形和数字是“这是人”。这是一个运行视频的帧，在这种情况下，我计算每帧中的FP、TP、TN、FN。那么在这个框架中，TN=7？因为在滑动窗口中，你有成千上万个“否定”答案，“那么我如何计算FPR并绘制ROC曲线呢？”@Lejlott这听起来有点离题，可能更多的是统计中的主题。SEWell HOG方法提供了一个矩形（检测窗口）来检测人类，在这个框架中，我认为不应该检测人类，因为有些人非常小，而且不完整。因此，该算法没有检测，并且是正确的，因此我认为FP=0，因为没有检测到不完整的人类对象，TP=0，没有矩形没有人类，FN=0，没有假矩形或假检测，TN=10（如果您计算有10个类似人类的对象），仅此帧没有检测到的对象（人类）存在并正确忽略。很抱歉，我只是说我的理解和信心这完全不是它的工作原理，当然你可以定义什么是“人”的决心对你来说很重要，但你不能随意改变这些术语的定义。它返回了6帧，没有一帧是人类的（分辨率高或低），所以FP是6，周期。这里没有讨论。FN为0或10，具体取决于您的分辨率。TN不是10，因为它取决于实际分析了多少帧。这就是术语的定义。然而，作为一个元问题——如果没有人类，你根本无法定义这些对象，这不是一个正确的分类问题。你的方法将意味着你有一些预处理，预先选择了“类人对象”，算法应该只正确地分类哪些“类人”是真实的人类或非人类。这很好，但是您需要实际拥有这个方法（在脚本中，而不是作为一个人）。有吗？这是极不可能的情况，因为它要求你有一个完美的“类人”预选器，“被检测到的人类”的位置已经表明这不是它的工作原理-它清楚地选择了“作为人类”的东西，而这些东西甚至不是类人的，所以它不是你在这个问题的图像FP=2中的“10个类人事物”的子集，不是吗？因为有两个假红色的矩形在搜索人类，但在我的图像中，你们并没有像这些假矩形一样的东西。FN=1表示1个直截了当的说法，TP=3表示直截了当的说法。这就是我的想法。是的，对于单独的问题，FP=2。在你们提供的图像中有6个矩形，它们错误地表示有一个人。看看我的答案，我一直在说FP=6。除非你认为它们是正常的，因为它们“有点离谱，但足够近”，这是非常特定于领域的，但我想说的是，从图像识别的角度来看，这是无效的。