Image processing 如何识别图像中的字母？（OCR前）_Image Processing_Ocr_Vision

Image processing 如何识别图像中的字母？（OCR前）

image-processing

Image processing 如何识别图像中的字母？（OCR前）,image-processing,ocr,vision,Image Processing,Ocr,Vision,我在网上所能找到的只是关于OCR的，但我还没有找到，我仍然需要识别图像中字母的位置任何帮助都将不胜感激一般来说，您将寻找几乎纯色的小连续区域。我建议对每个像素进行采样，并构建一个附近像素的阵列，该阵列也在原始像素颜色的阈值范围内（对每个匹配像素的相邻像素重复）。将整个数组作为一个潜在字符放在一边（或者现在检查），然后继续（可能会忽略以前收集的像素以提高速度）如果您事先知道文本的字体大小、质量和/或颜色，则可以进行优化。如果不是的话，你会希望对构成“连续区域”的阈值相当慷慨。一般来说，你会寻找

我在网上所能找到的只是关于OCR的，但我还没有找到，我仍然需要识别图像中字母的位置

任何帮助都将不胜感激

一般来说，您将寻找几乎纯色的小连续区域。我建议对每个像素进行采样，并构建一个附近像素的阵列，该阵列也在原始像素颜色的阈值范围内（对每个匹配像素的相邻像素重复）。将整个数组作为一个潜在字符放在一边（或者现在检查），然后继续（可能会忽略以前收集的像素以提高速度）

如果您事先知道文本的字体大小、质量和/或颜色，则可以进行优化。如果不是的话，你会希望对构成“连续区域”的阈值相当慷慨。

一般来说，你会寻找几乎纯色的小连续区域。我建议对每个像素进行采样，并构建一个附近像素的阵列，该阵列也在原始像素颜色的阈值范围内（对每个匹配像素的相邻像素重复）。将整个数组作为一个潜在字符放在一边（或者现在检查），然后继续（可能会忽略以前收集的像素以提高速度）

如果您事先知道文本的字体大小、质量和/或颜色，则可以进行优化。如果不是的话，你会希望对构成“连续区域”的阈值相当慷慨。

有趣的是，答案并不像看上去那么简单。有些人可能认为在图片上定位字符是OCR的第一步，但事实并非如此。实际上，在你真正完成识别之前，你无法确定每个角色的位置

它的工作方式完全取决于您要识别的图像类型。首先，您应该在文本区域（块）和其他所有内容上分割图像

仅举几个例子：

若你们正在识别汽车图片上的车牌，你们应该首先找到车牌，然后将其分割成不同的字符
如果您正在识别某个申请表，您可以通过了解其布局来定位文本所在的区域
若你们正在识别书页的扫描，你们必须区分图片和文本区域，然后只处理文本

从这一刻开始，您不再需要原始图像，只需要文本块的二值化图像。所有的OCR算法都处理二值图像。您可能还需要进行其他类型的图像变换，如直线校正、透视校正、倾斜校正等，所有这些都取决于您识别的图像类型

一旦找到并规范化了文本块，您应该进一步查找文本块上的文本行。在文本水平线的普通情况下，通过水平线创建像素直方图非常简单

现在，当你有台词的时候，你可能会认为现在它很简单，你可以把它拆分成几个字符，呼！同样，这是错误的。有这样的现象，如连接字符、断字符甚至连字（两个字母形成一个单一形状），或者字母的部分在下一个字符的上方或下方更靠右。您应该做的是创建几个将行拆分为单词和单个字符的hipotesis，然后尝试OCR每个变体，用置信度对每个变体进行加权。最后一步是使用字典检查此图中的不同路径并选择最佳路径

直到现在，当你真正认识到所有的东西时，你才能说出单个字符的位置

所以，简单的答案是：用OCR程序识别你的图像，并从它的输出中获得字符的坐标。

它的工作方式完全取决于您要识别的图像类型。首先，您应该在文本区域（块）和其他所有内容上分割图像

仅举几个例子：

若你们正在识别汽车图片上的车牌，你们应该首先找到车牌，然后将其分割成不同的字符
如果您正在识别某个申请表，您可以通过了解其布局来定位文本所在的区域
若你们正在识别书页的扫描，你们必须区分图片和文本区域，然后只处理文本

一旦找到并规范化了文本块，您应该进一步查找文本块上的文本行。在文本水平线的普通情况下，通过水平线创建像素直方图非常简单

直到现在，当你真正认识到一切，你