Python 从表中读取值的TeserAct

Python 从表中读取值的TeserAct,python,tesseract,python-tesseract,Python,Tesseract,Python Tesseract,我的问题是关于使用OCR从图像中的表中提取数据 我正在使用tesseract将表格图像转换为文本。除了不保留表的格式外,这种方法工作得很好。一种解决方案是用一些字母替换列tesseract会识别并愚弄它,使其将表格当作一些文本 下面是一个没有列的表的示例 我使用下面的代码来绘制“QQ”列 这给了我以下的图像 问题是,tesseract甚至不能识别QQ。 我把QQ栏目也写在空白页上,tesseract没有认出它 有没有办法使用tesseract将png格式的表格转换为文本?有什么让我不明白的吗?

我的问题是关于使用OCR从图像中的表中提取数据

我正在使用
tesseract
将表格图像转换为文本。除了不保留表的格式外,这种方法工作得很好。一种解决方案是用一些字母替换列
tesseract
会识别并愚弄它,使其将表格当作一些文本

下面是一个没有列的表的示例

我使用下面的代码来绘制“QQ”列

这给了我以下的图像

问题是,tesseract甚至不能识别QQ。 我把QQ栏目也写在空白页上,tesseract没有认出它


有没有办法使用tesseract将png格式的表格转换为文本?有什么让我不明白的吗?

主要问题是QQ的垂直间距。通过增加一些垂直间距和调整图像大小,我得到了可以接受的结果

im=Image.open("file.png")
draw  = ImageDraw.Draw(im)
font=ImageFont.truetype("/usr/share/fonts/gnu-free/FreeSerifBold.ttf",12)
by = font.getsize("S")[1]
col = [240,480]
px = []

for y in range(0,im.size[1],by+5):
    for x in col:
        draw.text((x,y),"QQ",font=font,fill=0)
im=im.resize((im.size[0]*2,im.size[1]*2))
im.save("res-file.png")
im.show()
以下是在
tesseract res-file.png outputfile

8888
8888

商店§开业日期§城镇
Mike§2007-11-09§sourisvi|e
阿巴斯§2009-1-05§魔术城
Iuma$2009-1-05§vani|a
Beboot§2009-3-31§at|antis
bascics$2008-Jun-27§o|d york

im=Image.open("file.png")
draw  = ImageDraw.Draw(im)
font=ImageFont.truetype("/usr/share/fonts/gnu-free/FreeSerifBold.ttf",12)
by = font.getsize("S")[1]
col = [240,480]
px = []

for y in range(0,im.size[1],by+5):
    for x in col:
        draw.text((x,y),"QQ",font=font,fill=0)
im=im.resize((im.size[0]*2,im.size[1]*2))
im.save("res-file.png")
im.show()