Python Tesseract可以'；我认不出这种字体_Python_Image Processing_Image Manipulation_Ocr_Tesseract

Python Tesseract可以'；我认不出这种字体

python image-processing

Python Tesseract可以'；我认不出这种字体,python,image-processing,image-manipulation,ocr,tesseract,Python,Image Processing,Image Manipulation,Ocr,Tesseract,我有这样的图像：我想用python把它读成一个字符串，我认为这并不难。我遇到了tesseract，然后是一个使用tesseract的python脚本包装器所以我开始阅读图片，在我尝试阅读这张图片之前，效果非常好。我需要训练它阅读那种特定的字体吗？你知道那个特定的字体是什么吗？或者有没有更好的ocr引擎可以与python一起使用来完成这项工作编辑：也许我可以在数字周围做一些向量，然后再把它们画得更大一些？图像越大，tesseract ocr读取效果越好（这并不奇怪，lol）。看起来像Eur

我有这样的图像：

我想用python把它读成一个字符串，我认为这并不难。我遇到了tesseract，然后是一个使用tesseract的python脚本包装器

所以我开始阅读图片，在我尝试阅读这张图片之前，效果非常好。我需要训练它阅读那种特定的字体吗？你知道那个特定的字体是什么吗？或者有没有更好的ocr引擎可以与python一起使用来完成这项工作

编辑：也许我可以在数字周围做一些向量，然后再把它们画得更大一些？图像越大，tesseract ocr读取效果越好（这并不奇怪，lol）。

看起来像Eurostile字体。是的，您必须使用源图像中使用的每种不同字体进行训练。

只需训练引擎使用10位数字和“.”。应该这样做。在对图像进行OCR之前，请确保将图像更改为灰度。

最近关于这个主题的流量很大。你需要使用一种只包含数字的“语言”。许多人以前就这样训练过发动机。看起来你在试图智取验证码数据保护方案。。。tsk，tsk.

训练很难，这里并不真正需要训练。无论脚本如何，O和0以及l和1之间的区别都将很难区分。如果上下文允许，将OCR限制为仅在数字之间进行选择将大大简化问题

我对tesseract的兴趣在于处理大量来自旧政府报告的数字。在本例中以及正在讨论的本例中，字符集类似于“0123456789”。在eric_taj于2007-03-21在tesseract的旧（sourceforge）新闻组中发表评论后，您可以在classify/intproto.cpp中修改Templates->IndexFor和Templates->ClassIdFor以屏蔽不允许的字符。我对该方法进行了一些修改，以便在运行时在环境变量中读取允许的字符集，以便我可以动态调整允许的字符集。

对于通用OCR来说，识别小屏幕字体可能很困难，因为它被优化为读取从纸张扫描的大平滑字体

你最好试试像OCR这样的特殊屏幕截图

. 它将收集所有本地字体，并通过简单的字符对字符匹配提供100%的精确识别。

不是我，更适合客户，但这是它的基础。不过我相信信息应该是免费的。。但这完全是另一种说法我同意信息应该是免费的，但我在想你所做的可能会危及个人数据的隐私，我认为个人数据应该得到保护（尽管SSL破解的时间不长）。