微软计算机视觉API或谷歌'；s Cloud Vision API获取对象的位置？_Api_Computer Vision_Microsoft Cognitive_Google Cloud Vision

微软计算机视觉API或谷歌'；s Cloud Vision API获取对象的位置？

api computer-vision

微软计算机视觉API或谷歌'；s Cloud Vision API获取对象的位置？,api,computer-vision,microsoft-cognitive,google-cloud-vision,Api,Computer Vision,Microsoft Cognitive,Google Cloud Vision,我试图开发一个应用程序，需要知道标记对象在图像中的位置。仅仅知道图像中有“钢琴”是不够的，我需要知道钢琴在图像中的位置 Microsoft的Computer Vision API和Google的Cloud Vision API都提供了某种形式的裁剪建议/智能缩略图生成服务，这让我觉得某些对象的位置正在被检测到，但是有没有办法获取该信息（比如每个检测到的对象周围都有一个边界框）来自微软的计算机视觉API或谷歌的云视觉API 编辑：我知道这两个API都可以返回图像中检测到的人脸的位置，但是我要查找

我试图开发一个应用程序，需要知道标记对象在图像中的位置。仅仅知道图像中有“钢琴”是不够的，我需要知道钢琴在图像中的位置

Microsoft的Computer Vision API和Google的Cloud Vision API都提供了某种形式的裁剪建议/智能缩略图生成服务，这让我觉得某些对象的位置正在被检测到，但是有没有办法获取该信息（比如每个检测到的对象周围都有一个边界框）来自微软的计算机视觉API或谷歌的云视觉API

编辑：我知道这两个API都可以返回图像中检测到的人脸的位置，但是我要查找图像中每个对象的位置和大小：汽车、钢琴、树木、人……任何东西。

Microsoft Vision API不提供检测到的对象的像素坐标（请参阅返回功能：）

但是，如果您想检测人员，Microsoft API可以返回面部矩形的坐标。

我不知道现在有什么API可以为您提供对象的坐标。我建议使用的是提供对象坐标的。您可以使用预先培训过的模型，也可以自己培训

但是，它不是API，您必须编写一些后端代码才能远程运行。

希望这能对您有所帮助

API:

样本响应：-

{
    "objects": [
        {
            "rectangle": {
                "x": 460,
                "y": 79,
                "w": 141,
                "h": 258
            },
            "object": "window",
            "confidence": 0.508
        },
        {
            "rectangle": {
                "x": 180,
                "y": 240,
                "w": 299,
                "h": 182
            },
            "object": "Billiard table",
            "confidence": 0.635,
            "parent": {
                "object": "table",
                "confidence": 0.676
            }
        },
        {
            "rectangle": {
                "x": 8,
                "y": 11,
                "w": 497,
                "h": 416
            },
            "object": "room",
            "confidence": 0.547
        }
    ],
    "requestId": "f8aafd95-d17d-4088-a34b-ad616f9cde4a",
    "metadata": {
        "width": 640,
        "height": 427,
        "format": "Jpeg"
    }
}

2020年更新：

这个问题已经有几年历史了，但是计算机视觉API现在能够在图像中检测到的对象周围绘制边界框。其他语言也可用

计算机视觉文档：

计算机视觉SDK：

计算机视觉API:

查看我的编辑-我要寻找的不仅仅是面部位置，但我知道这些API可能不是我要寻找的。在这种情况下，Microsoft API不适合。对Google API或任何其他API有任何想法吗？您是否尝试过在python中使用OpenCV包（教程：）。不幸的是，我对谷歌API一无所知。祝你好运。我认为OpenCV必须经过训练才能对大量对象进行分类。我正在寻找一些解决方案，已经可以识别成千上万的每天的对象和项目。可能重复的

{
    "objects": [
        {
            "rectangle": {
                "x": 460,
                "y": 79,
                "w": 141,
                "h": 258
            },
            "object": "window",
            "confidence": 0.508
        },
        {
            "rectangle": {
                "x": 180,
                "y": 240,
                "w": 299,
                "h": 182
            },
            "object": "Billiard table",
            "confidence": 0.635,
            "parent": {
                "object": "table",
                "confidence": 0.676
            }
        },
        {
            "rectangle": {
                "x": 8,
                "y": 11,
                "w": 497,
                "h": 416
            },
            "object": "room",
            "confidence": 0.547
        }
    ],
    "requestId": "f8aafd95-d17d-4088-a34b-ad616f9cde4a",
    "metadata": {
        "width": 640,
        "height": 427,
        "format": "Jpeg"
    }
}