Image processing 如何识别图像中的字母?(OCR前)

Image processing 如何识别图像中的字母?(OCR前),image-processing,ocr,vision,Image Processing,Ocr,Vision,我在网上所能找到的只是关于OCR的,但我还没有找到,我仍然需要识别图像中字母的位置 任何帮助都将不胜感激一般来说,您将寻找几乎纯色的小连续区域。我建议对每个像素进行采样,并构建一个附近像素的阵列,该阵列也在原始像素颜色的阈值范围内(对每个匹配像素的相邻像素重复)。将整个数组作为一个潜在字符放在一边(或者现在检查),然后继续(可能会忽略以前收集的像素以提高速度) 如果您事先知道文本的字体大小、质量和/或颜色,则可以进行优化。如果不是的话,你会希望对构成“连续区域”的阈值相当慷慨。一般来说,你会寻找

我在网上所能找到的只是关于OCR的,但我还没有找到,我仍然需要识别图像中字母的位置


任何帮助都将不胜感激

一般来说,您将寻找几乎纯色的小连续区域。我建议对每个像素进行采样,并构建一个附近像素的阵列,该阵列也在原始像素颜色的阈值范围内(对每个匹配像素的相邻像素重复)。将整个数组作为一个潜在字符放在一边(或者现在检查),然后继续(可能会忽略以前收集的像素以提高速度)


如果您事先知道文本的字体大小、质量和/或颜色,则可以进行优化。如果不是的话,你会希望对构成“连续区域”的阈值相当慷慨。

一般来说,你会寻找几乎纯色的小连续区域。我建议对每个像素进行采样,并构建一个附近像素的阵列,该阵列也在原始像素颜色的阈值范围内(对每个匹配像素的相邻像素重复)。将整个数组作为一个潜在字符放在一边(或者现在检查),然后继续(可能会忽略以前收集的像素以提高速度)


如果您事先知道文本的字体大小、质量和/或颜色,则可以进行优化。如果不是的话,你会希望对构成“连续区域”的阈值相当慷慨。

有趣的是,答案并不像看上去那么简单。有些人可能认为在图片上定位字符是OCR的第一步,但事实并非如此。实际上,在你真正完成识别之前,你无法确定每个角色的位置

它的工作方式完全取决于您要识别的图像类型。首先,您应该在文本区域(块)和其他所有内容上分割图像

仅举几个例子:

  • 若你们正在识别汽车图片上的车牌,你们应该首先找到车牌,然后将其分割成不同的字符
  • 如果您正在识别某个申请表,您可以通过了解其布局来定位文本所在的区域
  • 若你们正在识别书页的扫描,你们必须区分图片和文本区域,然后只处理文本
从这一刻开始,您不再需要原始图像,只需要文本块的二值化图像。所有的OCR算法都处理二值图像。您可能还需要进行其他类型的图像变换,如直线校正、透视校正、倾斜校正等,所有这些都取决于您识别的图像类型

一旦找到并规范化了文本块,您应该进一步查找文本块上的文本行。在文本水平线的普通情况下,通过水平线创建像素直方图非常简单

现在,当你有台词的时候,你可能会认为现在它很简单,你可以把它拆分成几个字符,呼!同样,这是错误的。有这样的现象,如连接字符、断字符甚至连字(两个字母形成一个单一形状),或者字母的部分在下一个字符的上方或下方更靠右。您应该做的是创建几个将行拆分为单词和单个字符的hipotesis,然后尝试OCR每个变体,用置信度对每个变体进行加权。最后一步是使用字典检查此图中的不同路径并选择最佳路径

直到现在,当你真正认识到所有的东西时,你才能说出单个字符的位置


所以,简单的答案是:用OCR程序识别你的图像,并从它的输出中获得字符的坐标。

有趣的是,答案并不像看上去那么简单。有些人可能认为在图片上定位字符是OCR的第一步,但事实并非如此。实际上,在你真正完成识别之前,你无法确定每个角色的位置

它的工作方式完全取决于您要识别的图像类型。首先,您应该在文本区域(块)和其他所有内容上分割图像

仅举几个例子:

  • 若你们正在识别汽车图片上的车牌,你们应该首先找到车牌,然后将其分割成不同的字符
  • 如果您正在识别某个申请表,您可以通过了解其布局来定位文本所在的区域
  • 若你们正在识别书页的扫描,你们必须区分图片和文本区域,然后只处理文本
从这一刻开始,您不再需要原始图像,只需要文本块的二值化图像。所有的OCR算法都处理二值图像。您可能还需要进行其他类型的图像变换,如直线校正、透视校正、倾斜校正等,所有这些都取决于您识别的图像类型

一旦找到并规范化了文本块,您应该进一步查找文本块上的文本行。在文本水平线的普通情况下,通过水平线创建像素直方图非常简单

现在,当你有台词的时候,你可能会认为现在它很简单,你可以把它拆分成几个字符,呼!同样,这是错误的。有这样的现象,如连接字符、断字符甚至连字(两个字母形成一个单一形状),或者字母的部分在下一个字符的上方或下方更靠右。您应该做的是创建几个将行拆分为单词和单个字符的hipotesis,然后尝试OCR每个变体,用置信度对每个变体进行加权。最后一步是使用字典检查此图中的不同路径并选择最佳路径

直到现在,当你真正认识到一切,你