Python 3.x pytessarect/Tessarect行输出_Python 3.x_Tesseract_Python Tesseract

Python 3.x pytessarect/Tessarect行输出

python-3.x

Python 3.x pytessarect/Tessarect行输出,python-3.x,tesseract,python-tesseract,Python 3.x,Tesseract,Python Tesseract,我使用pytessarect（0.2.5）阅读同一页面上不同结构的文档，即： SomeText SomeText SomeText SomeTextSomeTextSomeTextSomeTextSomeText SomeText: SomeText SomeText: SomeText: SomeText: SomeText SomeText SomeText SomeText SomeText: SomeText SomeText: SomeText SomeText:

我使用pytessarect（0.2.5）阅读同一页面上不同结构的文档，即：

SomeText
SomeText
SomeText

SomeTextSomeTextSomeTextSomeTextSomeText

SomeText:  SomeText  SomeText: SomeText:
SomeText:  SomeText  SomeText SomeText SomeText
SomeText:  SomeText
SomeText:  SomeText

SomeText:  SomeText
SomeText:  SomeText

我想让tessarect逐行读取数据，到目前为止，我只是通过类似问题（和）的帖子找到了psm选项（在0-13之间变化，最推荐使用psm 4或6）。不幸的是，我尝试了psm的所有选项，并且可以解决我的问题。我查看了文档，但找不到其他选项。是否有人遇到过类似的问题并成功地解决了它？有没有办法强制tesseract逐行读取图像？非常感谢任何帮助

编辑：现在下半部分是按列读取的，我试图阻止它

Edit2：添加了命令

text = [] 
tess_cfg = '--psm 6 --oem 1 --hocr'   
for image in images:
   text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)

我可以找到我的错误，似乎使用

tess_cfg='--psm 6--oem 1--hocr'

或

tess_cfg='-psm 6--oem 1--hocr'

是有区别的。第一个似乎不能正常工作。

您能上传您正在使用的图像吗？你正在运行的命令呢？很遗憾，图像是压缩的，所以我无法上传，我希望我的代码能帮上一点忙。你需要的是pytesseract.image\u to\u pdf\u或\u hocr而不是image\u to\u string