Computer vision 是否有可能创建一个能够识别图像上下文的软件？_Computer Vision_Image Recognition

Computer vision 是否有可能创建一个能够识别图像上下文的软件？

computer-vision

Computer vision 是否有可能创建一个能够识别图像上下文的软件？,computer-vision,image-recognition,Computer Vision,Image Recognition,我在使用谷歌眼镜和谷歌的“图像搜索”时出于好奇提出了这个问题如果你尝试给谷歌一张图片进行搜索，它会显示一些结果。相同的图像效果最好（当然），但拍摄不同物体的照片可能很困难我想Google Goggle已经通过使用文本识别和图像匹配识别解决了一些问题。如果文本识别找到了文本，例如“索尼”，那么事情可能会变得更简单。如果一个品牌的形象被检测到，那么事情也应该简单一些。其他著名品牌和著名地标也一样，比如埃菲尔铁塔。拥有文字和品牌形象有助于轻松识别事物但是，如果我们要寻找一些更模糊的东西（这里需要

我在使用谷歌眼镜和谷歌的“图像搜索”时出于好奇提出了这个问题

如果你尝试给谷歌一张图片进行搜索，它会显示一些结果。相同的图像效果最好（当然），但拍摄不同物体的照片可能很困难

我想Google Goggle已经通过使用文本识别和图像匹配识别解决了一些问题。如果文本识别找到了文本，例如“索尼”，那么事情可能会变得更简单。如果一个品牌的形象被检测到，那么事情也应该简单一些。其他著名品牌和著名地标也一样，比如埃菲尔铁塔。拥有文字和品牌形象有助于轻松识别事物

但是，如果我们要寻找一些更模糊的东西（这里需要更好的措辞），例如，以这张拉面图像为例

如果你把这张图片放进谷歌，你会得到其他各种图片的图片，这些图片颜色相似，有时形状相似。见鬼，结果中还有其他拉面图像，但我认为如果这些拉面图像位于顶部会更好，因为我们输入了一个拉面图像，这里的上下文是拉面

所以这里是我的问题，是否有可能创建这样一个可以理解图像上下文的软件？我们如何在软件中表达上下文呢？

伙计，你刚刚指出了为什么这么多人从事计算机视觉工作的原因

用数学方法描述物体很容易。颜色、形状、密度。所有这些都很容易计算

但是当谈到“现实生活中的物体”时，计算机视觉变得非常复杂

角度、亮度和简单的不一致性使得几乎不可能准确地检测到物体

在进行计算机视觉工作时，你应该经常问自己：是什么让我想要识别的对象独一无二

我可以使用其他对象没有的描述符吗

问自己关于这些拉面的问题。假设我只是想检测拉面。如果汤的颜色变了怎么办？如果肉更大怎么办

如果你想知道更多，你应该阅读模式识别和模式匹配

如果你能找到解决这类问题的通用方法，你可以申请诺贝尔奖，我想：）

有些事情现在已经很出名了，比如人脸识别或OCR；但它们通常非常专业，只适用于一个领域。想想看，即使是谷歌的图像搜索算法，当你用拉面喂它的时候也很糟糕。不过，数独非常有效，因为他知道自己在搜索什么。所有的差异都是在训练中产生的，在训练中，你给出一个假设列表来帮助算法

所以基本上你明白了。要么你创建了一个非常好的计算机视觉系统，擅长根据大量假设检测一件事情，要么你创建了一个“ok”但非常通用的系统：）。

选择主要取决于您的应用程序

-1用于粘糊糊的可食物品的特写镜头。+1用于粘糊糊的可食物品的特写镜头。：）如果让计算机识别一张袜子的照片，并给出其他“训练”数据，即在受控条件下从相同角度、灯光等拍摄的同一只袜子的照片，是否会变得更简单？