如何获取tesseract为pdf文件创建的隐藏文本布局?
我没有太多的ocr经验。以下是我尝试的:如何获取tesseract为pdf文件创建的隐藏文本布局?,pdf,layout,tesseract,hocr,Pdf,Layout,Tesseract,Hocr,我没有太多的ocr经验。以下是我尝试的: tesseract-l eng-psm 1图像\u str007\u 0001.jpg图像\u str007\u tess pdf 结果是一个结构完美的隐藏文本布局-搜索pdf时,单词位于其确切位置。 我的问题是:我可以把这个布局作为一个文件(hocr或html)吗? (首选配置参数,而非API。) 我所尝试的: tesseract-l eng-psm 1图像\u str007\u 0001.jpg输出hocr 及 hocr2pdf-i图像\u str0