如何获取tesseract为pdf文件创建的隐藏文本布局?

如何获取tesseract为pdf文件创建的隐藏文本布局?,pdf,layout,tesseract,hocr,Pdf,Layout,Tesseract,Hocr,我没有太多的ocr经验。以下是我尝试的: tesseract-l eng-psm 1图像\u str007\u 0001.jpg图像\u str007\u tess pdf 结果是一个结构完美的隐藏文本布局-搜索pdf时,单词位于其确切位置。 我的问题是:我可以把这个布局作为一个文件(hocr或html)吗? (首选配置参数,而非API。) 我所尝试的: tesseract-l eng-psm 1图像\u str007\u 0001.jpg输出hocr 及 hocr2pdf-i图像\u str0

我没有太多的ocr经验。以下是我尝试的:

  • tesseract-l eng-psm 1图像\u str007\u 0001.jpg图像\u str007\u tess pdf

    结果是一个结构完美的隐藏文本布局-搜索pdf时,单词位于其确切位置。 我的问题是:我可以把这个布局作为一个文件(hocr或html)吗? (首选配置参数,而非API。)

    我所尝试的:

  • tesseract-l eng-psm 1图像\u str007\u 0001.jpg输出hocr

  • hocr2pdf-i图像\u str007\u 001-o output.pdf 在output.pdf文件中,在搜索文本时,单词的位置严重错误。是命令2。创建tesseract hocr布局文件不正确,或者hocr2pdf应用程序未正确创建pdf