Computer vision 如何使用计算机视觉API识别跑步者';运动号码纤维布

Computer vision 如何使用计算机视觉API识别跑步者';运动号码纤维布,computer-vision,microsoft-cognitive,Computer Vision,Microsoft Cognitive,我想使用Microsoft认知服务计算机视觉API来识别比赛中跑步者照片上的围脖号码,无论是单人跑步者还是少量个人跑步者 这是OCR功能应该能够处理的任务吗?我用“getting started”程序和测试控制台尝试了几个示例,它返回了一个空的区域数组。我是做错了什么,还是超出了它的能力范围?首先,检查您的图像是否符合API的描述 支持的图像格式:JPEG、PNG、GIF、BMP。图像文件大小必须为 小于4MB。图像尺寸必须介于40 x 40和3200 x之间 3200像素,并且图像不能大于10

我想使用Microsoft认知服务计算机视觉API来识别比赛中跑步者照片上的围脖号码,无论是单人跑步者还是少量个人跑步者


这是OCR功能应该能够处理的任务吗?我用“getting started”程序和测试控制台尝试了几个示例,它返回了一个空的区域数组。我是做错了什么,还是超出了它的能力范围?

首先,检查您的图像是否符合API的描述

支持的图像格式:JPEG、PNG、GIF、BMP。图像文件大小必须为 小于4MB。图像尺寸必须介于40 x 40和3200 x之间 3200像素,并且图像不能大于1000万像素

OCR系统通常会做出一些假设

图像的旋转角度不会超过一定程度,在微软的例子中是40度

文本检测仍然是研究的热点。在野外检测文本可能很有挑战性。例如,玛丽亚评论中的图像非常简单。文字颜色为黑白,照片取自

在这里,我分享两张照片:

对于OCR来说,这是一个不好的选择:

以下是来自Microsoft认知服务Vision OCR API的此图像的输出

{
  "language": "zh-Hant",
  "textAngle": 6.0999999999999641,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "1441,490,51,41",
      "lines": [
        {
          "boundingBox": "1441,490,51,41",
          "words": [
            {
              "boundingBox": "1441,490,51,41",
              "text": "39"
            }
          ]
        }
      ]
    }
  ]
}
OCR的一个好方法:

现在让我们看一下相同API的输出:

{
“语言”:“en”,
“文本角度”:-2.90000000000035,
“方向”:“向上”,
“区域”:[
{
“边界框”:“15971824585576”,
“行”:[
{
“边界框”:“16541824528,67”,
“文字”:[
{
“边界框”:“16541829211,62”,
“文本”:“7?.cek”
},
{
“边界框”:“21461824,36,52”,
“文本”:“Y”
}
]
},
{
“边界框”:“16031889551,98”,
“文字”:[
{
“边界框”:“16031889551,98”,
“文本”:“罗利”
}
]
},
{
“边界框”:“16951990370,37”,
“文字”:[
{
“边界框”:“16951990,79,35”,
“文本”:“1/2”
},
{
“边界框”:“17941993271,34”,
“文本”:“马拉松”
}
]
},
{
“边界框”:“17422052138,26”,
“文字”:[
{
“边界框”:“17422052105,23”,
“文本”:“呈现”
},
{
“边界框”:“18562053,24,25”,
“文本”:“由”
}
]
},
{
“边界框”:“17982099156,21”,
“文字”:[
{
“边界框”:“17982099,65,17”,
“文本”:“四月”
},
{
“边界框”:“18722101,26,19”,
“文本”:“13,”
},
{
“边界框”:“19052101,49,15”,
“文本”:“2014年”
}
]
},
{
“边界框”:“15972160536159”,
“文字”:[
{
“边界框”:“15972160536159”,
“文本”:“19401”
}
]
},
{
“边界框”:“17492368101,32”,
“文字”:[
{
“边界框”:“17492368101,32”,
“文本”:“受益”
}
]
}
]
}
]

}
我试着用一张图片手写OCR,得到了一个可以接受的结果:谢谢你的回复,Semih。我在两张不同的图片上试过,两张都符合要求,但两张都没有得到任何结果。不知道为什么。我可以尝试更多的实验。但是…/2012/04/Runners.jpg是我想要处理的典型照片类型。事实上,它只得到了我认为可以识别的4个数字中的一部分,这意味着技术可能还没有准备好。