微软计算机视觉API或谷歌';s Cloud Vision API获取对象的位置?
我试图开发一个应用程序,需要知道标记对象在图像中的位置。仅仅知道图像中有“钢琴”是不够的,我需要知道钢琴在图像中的位置 Microsoft的Computer Vision API和Google的Cloud Vision API都提供了某种形式的裁剪建议/智能缩略图生成服务,这让我觉得某些对象的位置正在被检测到,但是有没有办法获取该信息(比如每个检测到的对象周围都有一个边界框)来自微软的计算机视觉API或谷歌的云视觉API微软计算机视觉API或谷歌';s Cloud Vision API获取对象的位置?,api,computer-vision,microsoft-cognitive,google-cloud-vision,Api,Computer Vision,Microsoft Cognitive,Google Cloud Vision,我试图开发一个应用程序,需要知道标记对象在图像中的位置。仅仅知道图像中有“钢琴”是不够的,我需要知道钢琴在图像中的位置 Microsoft的Computer Vision API和Google的Cloud Vision API都提供了某种形式的裁剪建议/智能缩略图生成服务,这让我觉得某些对象的位置正在被检测到,但是有没有办法获取该信息(比如每个检测到的对象周围都有一个边界框)来自微软的计算机视觉API或谷歌的云视觉API 编辑:我知道这两个API都可以返回图像中检测到的人脸的位置,但是我要查找
编辑:我知道这两个API都可以返回图像中检测到的人脸的位置,但是我要查找图像中每个对象的位置和大小:汽车、钢琴、树木、人……任何东西。Microsoft Vision API不提供检测到的对象的像素坐标(请参阅返回功能:)
但是,如果您想检测人员,Microsoft API可以返回面部矩形的坐标。我不知道现在有什么API可以为您提供对象的坐标。我建议使用的是提供对象坐标的。您可以使用预先培训过的模型,也可以自己培训 但是,它不是API,您必须编写一些后端代码才能远程运行。希望这能对您有所帮助 API: 样本响应:-
{
"objects": [
{
"rectangle": {
"x": 460,
"y": 79,
"w": 141,
"h": 258
},
"object": "window",
"confidence": 0.508
},
{
"rectangle": {
"x": 180,
"y": 240,
"w": 299,
"h": 182
},
"object": "Billiard table",
"confidence": 0.635,
"parent": {
"object": "table",
"confidence": 0.676
}
},
{
"rectangle": {
"x": 8,
"y": 11,
"w": 497,
"h": 416
},
"object": "room",
"confidence": 0.547
}
],
"requestId": "f8aafd95-d17d-4088-a34b-ad616f9cde4a",
"metadata": {
"width": 640,
"height": 427,
"format": "Jpeg"
}
}
2020年更新:
这个问题已经有几年历史了,但是计算机视觉API现在能够在图像中检测到的对象周围绘制边界框。其他语言也可用
计算机视觉文档:
计算机视觉SDK:
计算机视觉API:查看我的编辑-我要寻找的不仅仅是面部位置,但我知道这些API可能不是我要寻找的。在这种情况下,Microsoft API不适合。对Google API或任何其他API有任何想法吗?您是否尝试过在python中使用OpenCV包(教程:)。不幸的是,我对谷歌API一无所知。祝你好运。我认为OpenCV必须经过训练才能对大量对象进行分类。我正在寻找一些解决方案,已经可以识别成千上万的每天的对象和项目。可能重复的
{
"objects": [
{
"rectangle": {
"x": 460,
"y": 79,
"w": 141,
"h": 258
},
"object": "window",
"confidence": 0.508
},
{
"rectangle": {
"x": 180,
"y": 240,
"w": 299,
"h": 182
},
"object": "Billiard table",
"confidence": 0.635,
"parent": {
"object": "table",
"confidence": 0.676
}
},
{
"rectangle": {
"x": 8,
"y": 11,
"w": 497,
"h": 416
},
"object": "room",
"confidence": 0.547
}
],
"requestId": "f8aafd95-d17d-4088-a34b-ad616f9cde4a",
"metadata": {
"width": 640,
"height": 427,
"format": "Jpeg"
}
}