Ruby on rails 检测图像中物理对象的数量(图像处理)

Ruby on rails 检测图像中物理对象的数量(图像处理),ruby-on-rails,ruby,image-processing,google-vision,Ruby On Rails,Ruby,Image Processing,Google Vision,我正在开发一个RubyonRails应用程序,我想在其中检测图像中物理对象(瓶子和食物包)的数量 我只是浏览了googlevisionapi()来检查这是否可行。我上传了一张照片,上面有一些冷饮瓶,得到了以下回复 { "responses" : [ { "labelAnnotations" : [ { "mid" : "\/m\/01jwgf", "score" : 0.77698487, "de

我正在开发一个RubyonRails应用程序,我想在其中检测图像中物理对象(瓶子和食物包)的数量

我只是浏览了googlevisionapi()来检查这是否可行。我上传了一张照片,上面有一些冷饮瓶,得到了以下回复

{
  "responses" : [
    {
      "labelAnnotations" : [
        {
          "mid" : "\/m\/01jwgf",
          "score" : 0.77698487,
          "description" : "product"
        },
        {
          "mid" : "\/m\/0271t",
          "score" : 0.72027034,
          "description" : "drink"
        },
        {
          "mid" : "\/m\/02jnhm",
          "score" : 0.51373237,
          "description" : "tin can"
        }
      ]
    }
  ]
}
我在这里关心的是,它并没有给出图像中可用的冷饮瓶的数量,而是返回照片中可用的对象类型

Google Vision API或任何其他解决方案中是否可以实现这一点


任何帮助都将不胜感激。

我制作了一个简单的命令行程序,通过JRuby使用OpenCV检测人脸并用表情符号替换。这是一个绝对痛苦的设置,但一旦完成它是一个美丽的写作。我还制作了一个小脚本来创建OpenCV JRuby项目,该项目可以在shell脚本中使用所需的命令行参数执行,这可以减轻设置时的大部分(如果不是全部的话)痛苦

稍后,当我在我的电脑上时,我会将项目和脚本上传到GitHub,如果你愿意,我会将它们链接到这里,但现在我可以将它们作为一个例子

编辑 以下是JRuby OpenCV项目和脚本的链接:


我制作了一个简单的命令行程序,通过JRuby使用OpenCV检测人脸,并将其替换为表情符号。这是一个绝对痛苦的设置,但一旦完成它是一个美丽的写作。我还制作了一个小脚本来创建OpenCV JRuby项目,该项目可以在shell脚本中使用所需的命令行参数执行,这可以减轻设置时的大部分(如果不是全部的话)痛苦

稍后,当我在我的电脑上时,我会将项目和脚本上传到GitHub,如果你愿意,我会将它们链接到这里,但现在我可以将它们作为一个例子

编辑 以下是JRuby OpenCV项目和脚本的链接:


不幸的是,这个问题还没有完全解决。您可以使用一些对象检测算法,如和。如果对象包含在ImageNet数据集中,它们可以为您提供最多一个边界框的对象;当然,您可以使用它们来训练自己的分类器。我推荐YOLO,它非常易于使用,并且有很好的文档记录


此外,您还可以部署一个包含更快RCNN的对象检测服务器。它为您提供了一个非常好的用户界面来使用这些模型。

不幸的是,这个问题并没有完全解决。您可以使用一些对象检测算法,如和。如果对象包含在ImageNet数据集中,它们可以为您提供最多一个边界框的对象;当然,您可以使用它们来训练自己的分类器。我推荐YOLO,它非常易于使用,并且有很好的文档记录


此外,您还可以部署一个包含更快RCNN的对象检测服务器。它为您提供了一个非常好的用户界面来使用这些模型。

我不会将您的问题标记为重复,而是太宽泛或离题。请阅读。将其分解为较小的问题,并非常具体地说明限制。二维还是三维?已知对象还是未知对象?环境已知还是未知?处理时间、速度?线上线下?正如你现在问的,我想说:2016年不可能谢谢你的评论。我试着把我所有的信息都放进去。我想人们会理解我的描述。不管怎样,谢谢。除了过于宽泛之外,软件/库/etc的建议显然是离题的。我不会把你的问题标记为重复,而是太宽泛或离题。请阅读。将其分解为较小的问题,并非常具体地说明限制。二维还是三维?已知对象还是未知对象?环境已知还是未知?处理时间、速度?线上线下?正如你现在问的,我想说:2016年不可能谢谢你的评论。我试着把我所有的信息都放进去。我想人们会理解我的描述。无论如何,谢谢。除了过于宽泛之外,软件/库/etc的建议显然是离题的