微软计算机视觉API或谷歌';s Cloud Vision API获取对象的位置?

微软计算机视觉API或谷歌';s Cloud Vision API获取对象的位置?,api,computer-vision,microsoft-cognitive,google-cloud-vision,Api,Computer Vision,Microsoft Cognitive,Google Cloud Vision,我试图开发一个应用程序,需要知道标记对象在图像中的位置。仅仅知道图像中有“钢琴”是不够的,我需要知道钢琴在图像中的位置 Microsoft的Computer Vision API和Google的Cloud Vision API都提供了某种形式的裁剪建议/智能缩略图生成服务,这让我觉得某些对象的位置正在被检测到,但是有没有办法获取该信息(比如每个检测到的对象周围都有一个边界框)来自微软的计算机视觉API或谷歌的云视觉API 编辑:我知道这两个API都可以返回图像中检测到的人脸的位置,但是我要查找

我试图开发一个应用程序,需要知道标记对象在图像中的位置。仅仅知道图像中有“钢琴”是不够的,我需要知道钢琴在图像中的位置

Microsoft的Computer Vision API和Google的Cloud Vision API都提供了某种形式的裁剪建议/智能缩略图生成服务,这让我觉得某些对象的位置正在被检测到,但是有没有办法获取该信息(比如每个检测到的对象周围都有一个边界框)来自微软的计算机视觉API或谷歌的云视觉API



编辑:我知道这两个API都可以返回图像中检测到的人脸的位置,但是我要查找图像中每个对象的位置和大小:汽车、钢琴、树木、人……任何东西。

Microsoft Vision API不提供检测到的对象的像素坐标(请参阅返回功能:)


但是,如果您想检测人员,Microsoft API可以返回面部矩形的坐标。

我不知道现在有什么API可以为您提供对象的坐标。我建议使用的是提供对象坐标的。您可以使用预先培训过的模型,也可以自己培训

但是,它不是API,您必须编写一些后端代码才能远程运行。

希望这能对您有所帮助

API:

样本响应:-

{
    "objects": [
        {
            "rectangle": {
                "x": 460,
                "y": 79,
                "w": 141,
                "h": 258
            },
            "object": "window",
            "confidence": 0.508
        },
        {
            "rectangle": {
                "x": 180,
                "y": 240,
                "w": 299,
                "h": 182
            },
            "object": "Billiard table",
            "confidence": 0.635,
            "parent": {
                "object": "table",
                "confidence": 0.676
            }
        },
        {
            "rectangle": {
                "x": 8,
                "y": 11,
                "w": 497,
                "h": 416
            },
            "object": "room",
            "confidence": 0.547
        }
    ],
    "requestId": "f8aafd95-d17d-4088-a34b-ad616f9cde4a",
    "metadata": {
        "width": 640,
        "height": 427,
        "format": "Jpeg"
    }
}
2020年更新:

这个问题已经有几年历史了,但是计算机视觉API现在能够在图像中检测到的对象周围绘制边界框。其他语言也可用

计算机视觉文档:

计算机视觉SDK:


计算机视觉API:

查看我的编辑-我要寻找的不仅仅是面部位置,但我知道这些API可能不是我要寻找的。在这种情况下,Microsoft API不适合。对Google API或任何其他API有任何想法吗?您是否尝试过在python中使用OpenCV包(教程:)。不幸的是,我对谷歌API一无所知。祝你好运。我认为OpenCV必须经过训练才能对大量对象进行分类。我正在寻找一些解决方案,已经可以识别成千上万的每天的对象和项目。可能重复的
{
    "objects": [
        {
            "rectangle": {
                "x": 460,
                "y": 79,
                "w": 141,
                "h": 258
            },
            "object": "window",
            "confidence": 0.508
        },
        {
            "rectangle": {
                "x": 180,
                "y": 240,
                "w": 299,
                "h": 182
            },
            "object": "Billiard table",
            "confidence": 0.635,
            "parent": {
                "object": "table",
                "confidence": 0.676
            }
        },
        {
            "rectangle": {
                "x": 8,
                "y": 11,
                "w": 497,
                "h": 416
            },
            "object": "room",
            "confidence": 0.547
        }
    ],
    "requestId": "f8aafd95-d17d-4088-a34b-ad616f9cde4a",
    "metadata": {
        "width": 640,
        "height": 427,
        "format": "Jpeg"
    }
}