Php tesseract orc甚至不从简单的图像中读取文本_Php_Ocr_Tesseract

Php tesseract orc甚至不从简单的图像中读取文本

php

Php tesseract orc甚至不从简单的图像中读取文本,php,ocr,tesseract,Php,Ocr,Tesseract,为了让其他人在谷歌找到这一点，我将详细解释我的问题，尽管这应该是显而易见的。我正在使用tesseract ocr，希望能从图像中删除文本。我正在努力解决的问题是tesseract orc即使在最简单的图像中也找不到文本。请参阅下面的“我的系统和版本”信息： [root@tower python2]# uname -a Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_6

为了让其他人在谷歌找到这一点，我将详细解释我的问题，尽管这应该是显而易见的。我正在使用tesseract ocr，希望能从图像中删除文本。我正在努力解决的问题是tesseract orc即使在最简单的图像中也找不到文本。请参阅下面的“我的系统和版本”信息：

[root@tower python2]# uname -a
Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
[root@tower python2]# tesseract -v
tesseract 3.02.02
leptonica-1.71
libjpeg 6b : libpng 1.2.52 : zlib 1.2.3

我正在尝试使用php ocr类处理示例图像，但or类的功能不够强大，无法满足我的需要，显然tesseract是

以下是运行tesseract时发生的情况：

[root@tower phpocr]# tesseract W1.png output.file
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
[root@tower phpocr]#

以下是我正在使用的图像：

已编辑：包含更多图像。

尝试添加

pagesegmode

选项，例如

-psm 10

（即10=将图像视为单个字符），这似乎也可以提高单个字符的识别能力。使用

tesseract--help

列出其他选项

不幸的是，当我使用

-psm 10

W.png和W1.png运行您的示例文件时，它们分别被标识为

和

，尽管较大的图像（例如）正确地标识为

。我怀疑是您的样品的大小/字体导致了这种情况。此外，这纯粹是猜测，tesseract可能会在上下文中更好地识别该字符，即与使用相同字体和大小的其他字符一起识别。

谢谢，我需要从该图像中获取文本，您能帮我吗？谢谢，我需要从这张图片中获取文本，你能帮我吗？这是一个专门制作的图像，用于防止OCR分析（编写垃圾邮件机器人，是吗？：D）。我想你会很难过的。我绝对不是OCR专家，但也许你会更幸运地使用tesseract库而不是命令行工具。我就知道你会这么想！不，我的工作是证明使用tesseract破解密码是可能的。所以我希望能得到一些帮助。哈哈，只是开玩笑：）我不认为这是可能的，但我不敢说tesseract是否是正确的OCR库。我认为您将在设置和流程上拥有更精细的粒度，而通常使用，可能与其他图像处理/分析工具相结合，以识别文本和“过滤”出水平线等。好的，因此我遵循了您的建议，并支付了ABBYYs服务的费用。他们带着这个回来了：这产生了“96个，3个”，现在我只需要想一想如何用tesseract做到这一点，因为我相信这是可能的。