Php tesseract orc甚至不从简单的图像中读取文本

Php tesseract orc甚至不从简单的图像中读取文本,php,ocr,tesseract,Php,Ocr,Tesseract,为了让其他人在谷歌找到这一点,我将详细解释我的问题,尽管这应该是显而易见的。我正在使用tesseract ocr,希望能从图像中删除文本。我正在努力解决的问题是tesseract orc即使在最简单的图像中也找不到文本。请参阅下面的“我的系统和版本”信息: [root@tower python2]# uname -a Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_6

为了让其他人在谷歌找到这一点,我将详细解释我的问题,尽管这应该是显而易见的。我正在使用tesseract ocr,希望能从图像中删除文本。我正在努力解决的问题是tesseract orc即使在最简单的图像中也找不到文本。请参阅下面的“我的系统和版本”信息:

[root@tower python2]# uname -a
Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
[root@tower python2]# tesseract -v
tesseract 3.02.02
leptonica-1.71
libjpeg 6b : libpng 1.2.52 : zlib 1.2.3
我正在尝试使用php ocr类处理示例图像,但or类的功能不够强大,无法满足我的需要,显然tesseract是

以下是运行tesseract时发生的情况:

[root@tower phpocr]# tesseract W1.png output.file
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
[root@tower phpocr]#
以下是我正在使用的图像:


已编辑:包含更多图像。

尝试添加
pagesegmode
选项,例如
-psm 10
(即10=将图像视为单个字符),这似乎也可以提高单个字符的识别能力。使用
tesseract--help
列出其他选项


不幸的是,当我使用
-psm 10
W.pngW1.png运行您的示例文件时,它们分别被标识为
W
N
,尽管较大的图像(例如)正确地标识为
W
。我怀疑是您的样品的大小/字体导致了这种情况。此外,这纯粹是猜测,tesseract可能会在上下文中更好地识别该字符,即与使用相同字体和大小的其他字符一起识别。

谢谢,我需要从该图像中获取文本,您能帮我吗?谢谢,我需要从这张图片中获取文本,你能帮我吗?这是一个专门制作的图像,用于防止OCR分析(编写垃圾邮件机器人,是吗?:D)。我想你会很难过的。我绝对不是OCR专家,但也许你会更幸运地使用tesseract库而不是命令行工具。我就知道你会这么想!不,我的工作是证明使用tesseract破解密码是可能的。所以我希望能得到一些帮助。哈哈,只是开玩笑:)我不认为这是可能的,但我不敢说tesseract是否是正确的OCR库。我认为您将在设置和流程上拥有更精细的粒度,而通常使用,可能与其他图像处理/分析工具相结合,以识别文本和“过滤”出水平线等。好的,因此我遵循了您的建议,并支付了ABBYYs服务的费用。他们带着这个回来了:这产生了“96个,3个”,现在我只需要想一想如何用tesseract做到这一点,因为我相信这是可能的。