Image processing 使用leptonica(反彩色文本)的OCR图像处理

Image processing 使用leptonica(反彩色文本)的OCR图像处理,image-processing,ocr,tesseract,Image Processing,Ocr,Tesseract,我正在尝试使用leptonica处理以下图像,以使用tesseract提取文本 原始图像: 对原始图像进行细分会产生以下结果: i s l D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37 Bottom linez With a little time! you can learn social media technology using free online resources- And if you donity youlll be at a sign

我正在尝试使用leptonica处理以下图像,以使用tesseract提取文本

原始图像:

对原始图像进行细分会产生以下结果:

i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-
不太好,尤其是顶部背景。因此,使用leptionica,我使用背景去除算法(模糊、差异、阈值、反转)获得以下图像:

但tesseract在这方面做得并不好:

@@r-mair lkrm@W lh@w ilr@ mJs@ iklh@ ii@c2lhm1@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m ll@@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a $0 D
to other non-profrts
I

主要的问题似乎是,现在所有的文本都是轮廓,而不是实体。如何调整算法或添加什么使文本成为实体?

本文似乎提出了一种二值化方法来解决您的问题:

卡萨尔、库马尔和罗摩克里希南。(2007年)


太好了。在我接受答案之前,你不知道这个算法的一个实现,是吗?不,不幸的是,我不知道是否存在一个实现。我用python和opencv做了一个实现。谢谢这是一个巨大的努力,看起来很有希望,但现在的文本看起来像是从一些档案中挖掘出来的,基本上文本对读者来说不是很清晰,就像你在上面最右边(c)看到的那样