Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Tesseract可以';我认不出这种字体_Python_Image Processing_Image Manipulation_Ocr_Tesseract - Fatal编程技术网

Python Tesseract可以';我认不出这种字体

Python Tesseract可以';我认不出这种字体,python,image-processing,image-manipulation,ocr,tesseract,Python,Image Processing,Image Manipulation,Ocr,Tesseract,我有这样的图像: 我想用python把它读成一个字符串,我认为这并不难。我遇到了tesseract,然后是一个使用tesseract的python脚本包装器 所以我开始阅读图片,在我尝试阅读这张图片之前,效果非常好。我需要训练它阅读那种特定的字体吗?你知道那个特定的字体是什么吗?或者有没有更好的ocr引擎可以与python一起使用来完成这项工作 编辑:也许我可以在数字周围做一些向量,然后再把它们画得更大一些?图像越大,tesseract ocr读取效果越好(这并不奇怪,lol)。看起来像Eur

我有这样的图像:

我想用python把它读成一个字符串,我认为这并不难。我遇到了tesseract,然后是一个使用tesseract的python脚本包装器

所以我开始阅读图片,在我尝试阅读这张图片之前,效果非常好。我需要训练它阅读那种特定的字体吗?你知道那个特定的字体是什么吗?或者有没有更好的ocr引擎可以与python一起使用来完成这项工作


编辑:也许我可以在数字周围做一些向量,然后再把它们画得更大一些?图像越大,tesseract ocr读取效果越好(这并不奇怪,lol)。

看起来像Eurostile字体。是的,您必须使用源图像中使用的每种不同字体进行训练。

只需训练引擎使用10位数字和“.”。应该这样做。在对图像进行OCR之前,请确保将图像更改为灰度。

最近关于这个主题的流量很大。你需要使用一种只包含数字的“语言”。许多人以前就这样训练过发动机。看起来你在试图智取验证码数据保护方案。。。tsk,tsk.

训练很难,这里并不真正需要训练。无论脚本如何,O和0以及l和1之间的区别都将很难区分。如果上下文允许,将OCR限制为仅在数字之间进行选择将大大简化问题


我对tesseract的兴趣在于处理大量来自旧政府报告的数字。在本例中以及正在讨论的本例中,字符集类似于“0123456789”。在eric_taj于2007-03-21在tesseract的旧(sourceforge)新闻组中发表评论后,您可以在classify/intproto.cpp中修改Templates->IndexFor和Templates->ClassIdFor以屏蔽不允许的字符。我对该方法进行了一些修改,以便在运行时在环境变量中读取允许的字符集,以便我可以动态调整允许的字符集。

对于通用OCR来说,识别小屏幕字体可能很困难,因为它被优化为读取从纸张扫描的大平滑字体

你最好试试像OCR这样的特殊屏幕截图
. 它将收集所有本地字体,并通过简单的字符对字符匹配提供100%的精确识别。

不是我,更适合客户,但这是它的基础。不过我相信信息应该是免费的。。但这完全是另一种说法我同意信息应该是免费的,但我在想你所做的可能会危及个人数据的隐私,我认为个人数据应该得到保护(尽管SSL破解的时间不长)。