Python Tesseract可以';我认不出这种字体
我有这样的图像: 我想用python把它读成一个字符串,我认为这并不难。我遇到了tesseract,然后是一个使用tesseract的python脚本包装器 所以我开始阅读图片,在我尝试阅读这张图片之前,效果非常好。我需要训练它阅读那种特定的字体吗?你知道那个特定的字体是什么吗?或者有没有更好的ocr引擎可以与python一起使用来完成这项工作Python Tesseract可以';我认不出这种字体,python,image-processing,image-manipulation,ocr,tesseract,Python,Image Processing,Image Manipulation,Ocr,Tesseract,我有这样的图像: 我想用python把它读成一个字符串,我认为这并不难。我遇到了tesseract,然后是一个使用tesseract的python脚本包装器 所以我开始阅读图片,在我尝试阅读这张图片之前,效果非常好。我需要训练它阅读那种特定的字体吗?你知道那个特定的字体是什么吗?或者有没有更好的ocr引擎可以与python一起使用来完成这项工作 编辑:也许我可以在数字周围做一些向量,然后再把它们画得更大一些?图像越大,tesseract ocr读取效果越好(这并不奇怪,lol)。看起来像Eur
编辑:也许我可以在数字周围做一些向量,然后再把它们画得更大一些?图像越大,tesseract ocr读取效果越好(这并不奇怪,lol)。看起来像Eurostile字体。是的,您必须使用源图像中使用的每种不同字体进行训练。只需训练引擎使用10位数字和“.”。应该这样做。在对图像进行OCR之前,请确保将图像更改为灰度。最近关于这个主题的流量很大。你需要使用一种只包含数字的“语言”。许多人以前就这样训练过发动机。看起来你在试图智取验证码数据保护方案。。。tsk,tsk.训练很难,这里并不真正需要训练。无论脚本如何,O和0以及l和1之间的区别都将很难区分。如果上下文允许,将OCR限制为仅在数字之间进行选择将大大简化问题
我对tesseract的兴趣在于处理大量来自旧政府报告的数字。在本例中以及正在讨论的本例中,字符集类似于“0123456789”。在eric_taj于2007-03-21在tesseract的旧(sourceforge)新闻组中发表评论后,您可以在classify/intproto.cpp中修改Templates->IndexFor和Templates->ClassIdFor以屏蔽不允许的字符。我对该方法进行了一些修改,以便在运行时在环境变量中读取允许的字符集,以便我可以动态调整允许的字符集。对于通用OCR来说,识别小屏幕字体可能很困难,因为它被优化为读取从纸张扫描的大平滑字体 你最好试试像OCR这样的特殊屏幕截图
. 它将收集所有本地字体,并通过简单的字符对字符匹配提供100%的精确识别。不是我,更适合客户,但这是它的基础。不过我相信信息应该是免费的。。但这完全是另一种说法我同意信息应该是免费的,但我在想你所做的可能会危及个人数据的隐私,我认为个人数据应该得到保护(尽管SSL破解的时间不长)。