Python 3.x pytessarect/Tessarect行输出
我使用pytessarect(0.2.5)阅读同一页面上不同结构的文档,即:Python 3.x pytessarect/Tessarect行输出,python-3.x,tesseract,python-tesseract,Python 3.x,Tesseract,Python Tesseract,我使用pytessarect(0.2.5)阅读同一页面上不同结构的文档,即: SomeText SomeText SomeText SomeTextSomeTextSomeTextSomeTextSomeText SomeText: SomeText SomeText: SomeText: SomeText: SomeText SomeText SomeText SomeText SomeText: SomeText SomeText: SomeText SomeText:
SomeText
SomeText
SomeText
SomeTextSomeTextSomeTextSomeTextSomeText
SomeText: SomeText SomeText: SomeText:
SomeText: SomeText SomeText SomeText SomeText
SomeText: SomeText
SomeText: SomeText
SomeText: SomeText
SomeText: SomeText
我想让tessarect逐行读取数据,到目前为止,我只是通过类似问题(和)的帖子找到了psm选项(在0-13之间变化,最推荐使用psm 4或6)。不幸的是,我尝试了psm的所有选项,并且可以解决我的问题。我查看了文档,但找不到其他选项。是否有人遇到过类似的问题并成功地解决了它?有没有办法强制tesseract逐行读取图像?
非常感谢任何帮助
编辑:现在下半部分是按列读取的,我试图阻止它
Edit2:添加了命令
text = []
tess_cfg = '--psm 6 --oem 1 --hocr'
for image in images:
text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)
我可以找到我的错误,似乎使用
tess_cfg='--psm 6--oem 1--hocr'
或tess_cfg='-psm 6--oem 1--hocr'
是有区别的。第一个似乎不能正常工作。您能上传您正在使用的图像吗?你正在运行的命令呢?很遗憾,图像是压缩的,所以我无法上传,我希望我的代码能帮上一点忙。你需要的是pytesseract.image\u to\u pdf\u或\u hocr
而不是image\u to\u string