Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/jsf-2/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Fonts OCR:事先知道字体的图像_Fonts_Ocr - Fatal编程技术网

Fonts OCR:事先知道字体的图像

Fonts OCR:事先知道字体的图像,fonts,ocr,Fonts,Ocr,我需要检索大量旧数据,这些数据存储为一系列图像。它们都有相同的背景和文本颜色,都使用相同字体大小的Verdana。大概是这样的: 我尝试的是计算列中的像素数,并将单个标志符与我以前“编码”的标志符数据库相匹配。效果不错,但有两个主要问题 1) keming-如果我在字符之间找到一个空格,那么我将检查标志符号。当两个字符重叠时,这不起作用。我通过向数据库中添加所有紧排字母的组合来解决这个问题 2) 别名-这是我的终极问题-由于别名,一个字母可以以多种不同的方式显示,而且几乎每个别名情况看起来都是

我需要检索大量旧数据,这些数据存储为一系列图像。它们都有相同的背景和文本颜色,都使用相同字体大小的Verdana。大概是这样的:

我尝试的是计算列中的像素数,并将单个标志符与我以前“编码”的标志符数据库相匹配。效果不错,但有两个主要问题

1) keming-如果我在字符之间找到一个空格,那么我将检查标志符号。当两个字符重叠时,这不起作用。我通过向数据库中添加所有紧排字母的组合来解决这个问题 2) 别名-这是我的终极问题-由于别名,一个字母可以以多种不同的方式显示,而且几乎每个别名情况看起来都是唯一的,因此,如果不完全改变我的识别代码方法,我无法构建“那些看起来像a”的数据库

那么:是否有一种工具可以识别图像上的特定字体,并能很好地处理混叠


除了使用tesseract之外,我真的很感激这个解决方案,因为它的复杂性和重量,这是我最后的选择。显然,最简单的方法是使用好的OCR工具。我把这张图片插入了的演示页面,处理得非常好。 它是商业性的,但有一些免费的认可,所以你可以玩arround,并决定它是否适合你。它是web API,因此插入应用程序非常容易,并且有可用性

因此,如果不进行任何字体培训,它可能已经足够好了。然而,如果准确性仍然不够,那么您可能需要研究字体训练。但这对于任何OCR引擎来说都是相当复杂的过程。然而,发明自己的OCR仍然容易得多

免责声明:我为ABBYY工作