Computer vision 如何使用计算机视觉API识别跑步者'；运动号码纤维布_Computer Vision_Microsoft Cognitive

Computer vision 如何使用计算机视觉API识别跑步者'；运动号码纤维布

computer-vision

Computer vision 如何使用计算机视觉API识别跑步者'；运动号码纤维布,computer-vision,microsoft-cognitive,Computer Vision,Microsoft Cognitive,我想使用Microsoft认知服务计算机视觉API来识别比赛中跑步者照片上的围脖号码，无论是单人跑步者还是少量个人跑步者这是OCR功能应该能够处理的任务吗？我用“getting started”程序和测试控制台尝试了几个示例，它返回了一个空的区域数组。我是做错了什么，还是超出了它的能力范围？首先，检查您的图像是否符合API的描述支持的图像格式：JPEG、PNG、GIF、BMP。图像文件大小必须为小于4MB。图像尺寸必须介于40 x 40和3200 x之间 3200像素，并且图像不能大于10

我想使用Microsoft认知服务计算机视觉API来识别比赛中跑步者照片上的围脖号码，无论是单人跑步者还是少量个人跑步者

这是OCR功能应该能够处理的任务吗？我用“getting started”程序和测试控制台尝试了几个示例，它返回了一个空的区域数组。我是做错了什么，还是超出了它的能力范围？

首先，检查您的图像是否符合API的描述

支持的图像格式：JPEG、PNG、GIF、BMP。图像文件大小必须为小于4MB。图像尺寸必须介于40 x 40和3200 x之间 3200像素，并且图像不能大于1000万像素

OCR系统通常会做出一些假设

图像的旋转角度不会超过一定程度，在微软的例子中是40度

文本检测仍然是研究的热点。在野外检测文本可能很有挑战性。例如，玛丽亚评论中的图像非常简单。文字颜色为黑白，照片取自

在这里，我分享两张照片：

对于OCR来说，这是一个不好的选择：

以下是来自Microsoft认知服务Vision OCR API的此图像的输出

{
  "language": "zh-Hant",
  "textAngle": 6.0999999999999641,
  "orientation": "Up",
  "regions": [
    {
      "boundingBox": "1441,490,51,41",
      "lines": [
        {
          "boundingBox": "1441,490,51,41",
          "words": [
            {
              "boundingBox": "1441,490,51,41",
              "text": "39"
            }
          ]
        }
      ]
    }
  ]
}

OCR的一个好方法：

现在让我们看一下相同API的输出：

{
“语言”：“en”，
“文本角度”：-2.90000000000035，
“方向”：“向上”，
“区域”：[
{
“边界框”：“15971824585576”，
“行”：[
{
“边界框”：“16541824528,67”，
“文字”：[
{
“边界框”：“16541829211,62”，
“文本”：“7？.cek”
},
{
“边界框”：“21461824,36,52”，
“文本”：“Y”
}
]
},
{
“边界框”：“16031889551,98”，
“文字”：[
{
“边界框”：“16031889551,98”，
“文本”：“罗利”
}
]
},
{
“边界框”：“16951990370,37”，
“文字”：[
{
“边界框”：“16951990,79,35”，
“文本”：“1/2”
},
{
“边界框”：“17941993271,34”，
“文本”：“马拉松”
}
]
},
{
“边界框”：“17422052138,26”，
“文字”：[
{
“边界框”：“17422052105,23”，
“文本”：“呈现”
},
{
“边界框”：“18562053,24,25”，
“文本”：“由”
}
]
},
{
“边界框”：“17982099156,21”，
“文字”：[
{
“边界框”：“17982099,65,17”，
“文本”：“四月”
},
{
“边界框”：“18722101,26,19”，
“文本”：“13，”
},
{
“边界框”：“19052101,49,15”，
“文本”：“2014年”
}
]
},
{
“边界框”：“15972160536159”，
“文字”：[
{
“边界框”：“15972160536159”，
“文本”：“19401”
}
]
},
{
“边界框”：“17492368101,32”，
“文字”：[
{
“边界框”：“17492368101,32”，
“文本”：“受益”
}
]
}
]
}
]
}

我试着用一张图片手写OCR，得到了一个可以接受的结果：谢谢你的回复，Semih。我在两张不同的图片上试过，两张都符合要求，但两张都没有得到任何结果。不知道为什么。我可以尝试更多的实验。但是…/2012/04/Runners.jpg是我想要处理的典型照片类型。事实上，它只得到了我认为可以识别的4个数字中的一部分，这意味着技术可能还没有准备好。