Ibm cloud IBM Bluemix-视觉识别。为什么分数低?

Ibm cloud IBM Bluemix-视觉识别。为什么分数低?,ibm-cloud,ibm-watson,confidence-interval,training-data,visual-recognition,Ibm Cloud,Ibm Watson,Confidence Interval,Training Data,Visual Recognition,我正在IBMBlueMix上使用视觉识别服务 我创建了一些分类器,特别是其中的两个,目的是: 第一:一个“通用”分类器,必须返回图像中特定对象识别的置信度分数。我已经用50个物体的正面例子和50个类似物体的反面例子(物体的细节、组成部分、图像等等)对它进行了训练 第二个:如果第一个分类的分数很高,则使用一个更具体的分类器识别之前识别的特定类型的对象。这个新的分类器被训练为第一个分类器:50个A型对象的正面示例,50个B型对象的负面示例。第二种分类应该比第一种分类更具体,因为图像更详细,而且它们

我正在IBMBlueMix上使用视觉识别服务

我创建了一些分类器,特别是其中的两个,目的是:

  • 第一:一个“通用”分类器,必须返回图像中特定对象识别的置信度分数。我已经用50个物体的正面例子和50个类似物体的反面例子(物体的细节、组成部分、图像等等)对它进行了训练
  • 第二个:如果第一个分类的分数很高,则使用一个更具体的分类器识别之前识别的特定类型的对象。这个新的分类器被训练为第一个分类器:50个A型对象的正面示例,50个B型对象的负面示例。第二种分类应该比第一种分类更具体,因为图像更详细,而且它们之间都很相似
结果是这两个分类器工作得很好,在大多数情况下,一组特定图像的预期结果与事实相符,这意味着这两个分类器都经过了良好的训练

但有一件事我不明白

在这两种分类器中,如果我尝试对积极训练集中使用的图像之一进行分类,我的期望是置信度得分应该接近90-100%。相反,我的分数总是在0.50到0.55之间。当我尝试使用一个非常类似于正面训练集(缩放、反射、剪切等)的图像时,也会发生同样的情况:置信度永远不会超过0.55左右

我尝试创建一个类似的分类器,包含100个正面图像和100个负面图像,但最终结果从未改变


问题是:为什么信心分数这么低?为什么在正面训练集中使用的图像不接近90-100%?

视觉识别自定义分类器的得分范围为0.0到1.0,但它们是无单位的,不是百分比或概率。(它们加起来不等于100%或1.0)

当服务根据您的示例创建分类器时,它试图找出一类肯定示例与其他类别肯定示例(以及否定示例,如果给出)的特征的区别。分数基于类的正面示例与分类器中其他所有内容之间到决策边界的距离。它试图校准每个类的分数输出,以便0.5是一个合适的决策阈值,表示某个内容是否属于该类

但是,考虑到应用程序中虚警与漏检的成本效益平衡,您可能希望使用更高或更低的阈值来确定图像是否属于某个类


在不了解您的类示例的具体情况下,我可能会猜测您的类之间有很大的相似性,可能在特征空间中,您的示例不在不同的簇中,并且分数反映了这种接近边界的情况。

谢谢!我仍然有一个问题,因为我的应用程序面向的是一个客户,该客户必须通过该服务了解其研究的信心水平。由于它应该隐藏所有与决策区域之间的边界距离相关的内部技术特征(至少对于普通用户而言),我想知道如何解释并以某种方式转换返回的维度数字,以表示对“普通人”有用的东西。我需要提取一个参数(百分比最高),让用户以简单、直接的方式了解他的研究的有用性。我该怎么做?有几种方法-这里有一种:1。组装一组未用于训练分类器的标记数据“L”。2.将L分为2组,V和T-验证和测试。3.在分类器中运行V,并选择一个分数阈值“R”,它优化了所有V.4的正确性度量,例如top-5精度。从T中选择一个随机子集“Q”,并使用分类器和“R”对其进行分类。计算Q上正确分类的概率。这是一个实验。5.用不同于T的Q重复#4,计算所有实验中延迟的平均正确率%。我已经按照你的建议做了,我认为验证和测试过程的最终结果非常好。非常感谢。伟大的很高兴听到这个消息。