Ocr 当单词有背景图像时,如何提高分割效果

Ocr 当单词有背景图像时,如何提高分割效果,ocr,tesseract,Ocr,Tesseract,我试图从图像中提取数字。我测试了tesseract OCR,但结果还不够好。比如说, tesseract test.jpg stdout --psm 6 将输出: 4367 42424W0 104 我想问题是因为文字后面有一些背景图片。有什么方法可以改善结果吗?您可以使用ImageMagick的convert命令将图像设置为白色阈值。您可以下载ImageMagick,它支持多种平台 通过打字 convert image.jpg -threshold 33% thresholded.jpg

我试图从图像中提取数字。我测试了tesseract OCR,但结果还不够好。比如说,

tesseract test.jpg stdout --psm 6

将输出:

4367 42424W0 104

我想问题是因为文字后面有一些背景图片。有什么方法可以改善结果吗?

您可以使用
ImageMagick
convert
命令将图像设置为白色阈值。您可以下载
ImageMagick
,它支持多种平台

通过打字

convert image.jpg -threshold 33% thresholded.jpg
它输出下图。在几次尝试和调整后获得阈值

然后,使用basic
tesseract
命令,它会给出正确的输出

如果图像仅由0-9组成,则可以启用tesseract选项以提高识别精度-
-c TesserEdit\u char\u whitelist=01234567890“

希望这有帮助