Computer vision 是否有可能创建一个能够识别图像上下文的软件?

Computer vision 是否有可能创建一个能够识别图像上下文的软件?,computer-vision,image-recognition,Computer Vision,Image Recognition,我在使用谷歌眼镜和谷歌的“图像搜索”时出于好奇提出了这个问题 如果你尝试给谷歌一张图片进行搜索,它会显示一些结果。相同的图像效果最好(当然),但拍摄不同物体的照片可能很困难 我想Google Goggle已经通过使用文本识别和图像匹配识别解决了一些问题。如果文本识别找到了文本,例如“索尼”,那么事情可能会变得更简单。如果一个品牌的形象被检测到,那么事情也应该简单一些。其他著名品牌和著名地标也一样,比如埃菲尔铁塔。拥有文字和品牌形象有助于轻松识别事物 但是,如果我们要寻找一些更模糊的东西(这里需要

我在使用谷歌眼镜和谷歌的“图像搜索”时出于好奇提出了这个问题

如果你尝试给谷歌一张图片进行搜索,它会显示一些结果。相同的图像效果最好(当然),但拍摄不同物体的照片可能很困难

我想Google Goggle已经通过使用文本识别和图像匹配识别解决了一些问题。如果文本识别找到了文本,例如“索尼”,那么事情可能会变得更简单。如果一个品牌的形象被检测到,那么事情也应该简单一些。其他著名品牌和著名地标也一样,比如埃菲尔铁塔。拥有文字和品牌形象有助于轻松识别事物

但是,如果我们要寻找一些更模糊的东西(这里需要更好的措辞),例如,以这张拉面图像为例

如果你把这张图片放进谷歌,你会得到其他各种图片的图片,这些图片颜色相似,有时形状相似。见鬼,结果中还有其他拉面图像,但我认为如果这些拉面图像位于顶部会更好,因为我们输入了一个拉面图像,这里的上下文是拉面


所以这里是我的问题,是否有可能创建这样一个可以理解图像上下文的软件?我们如何在软件中表达上下文呢?

伙计,你刚刚指出了为什么这么多人从事计算机视觉工作的原因

用数学方法描述物体很容易。颜色、形状、密度。 所有这些都很容易计算

但是当谈到“现实生活中的物体”时,计算机视觉变得非常复杂

角度、亮度和简单的不一致性使得几乎不可能准确地检测到物体

在进行计算机视觉工作时,你应该经常问自己:是什么让我想要识别的对象独一无二

我可以使用其他对象没有的描述符吗

问自己关于这些拉面的问题。假设我只是想检测拉面。 如果汤的颜色变了怎么办?如果肉更大怎么办

如果你想知道更多,你应该阅读模式识别和模式匹配

如果你能找到解决这类问题的通用方法,你可以申请诺贝尔奖,我想:)

有些事情现在已经很出名了,比如人脸识别或OCR;但它们通常非常专业,只适用于一个领域。 想想看,即使是谷歌的图像搜索算法,当你用拉面喂它的时候也很糟糕。 不过,数独非常有效,因为他知道自己在搜索什么。 所有的差异都是在训练中产生的,在训练中,你给出一个假设列表来帮助算法

所以基本上你明白了。要么你创建了一个非常好的计算机视觉系统,擅长根据大量假设检测一件事情,要么你创建了一个“ok”但非常通用的系统:)。
选择主要取决于您的应用程序

-1用于粘糊糊的可食物品的特写镜头。+1用于粘糊糊的可食物品的特写镜头。:)如果让计算机识别一张袜子的照片,并给出其他“训练”数据,即在受控条件下从相同角度、灯光等拍摄的同一只袜子的照片,是否会变得更简单?