如何获取tesseract为pdf文件创建的隐藏文本布局？_Pdf_Layout_Tesseract_Hocr

如何获取tesseract为pdf文件创建的隐藏文本布局？

pdf layout

如何获取tesseract为pdf文件创建的隐藏文本布局？,pdf,layout,tesseract,hocr,Pdf,Layout,Tesseract,Hocr,我没有太多的ocr经验。以下是我尝试的： tesseract-l eng-psm 1图像\u str007\u 0001.jpg图像\u str007\u tess pdf 结果是一个结构完美的隐藏文本布局-搜索pdf时，单词位于其确切位置。我的问题是：我可以把这个布局作为一个文件（hocr或html）吗？（首选配置参数，而非API。）我所尝试的： tesseract-l eng-psm 1图像\u str007\u 0001.jpg输出hocr 及 hocr2pdf-i图像\u str0

我没有太多的ocr经验。以下是我尝试的：

tesseract-l eng-psm 1图像\u str007\u 0001.jpg图像\u str007\u tess pdf

结果是一个结构完美的隐藏文本布局-搜索pdf时，单词位于其确切位置。我的问题是：我可以把这个布局作为一个文件（hocr或html）吗？（首选配置参数，而非API。）

我所尝试的：

tesseract-l eng-psm 1图像\u str007\u 0001.jpg输出hocr

及

hocr2pdf-i图像\u str007\u 001-o output.pdf 在output.pdf文件中，在搜索文本时，单词的位置严重错误。是命令2。创建tesseract hocr布局文件不正确，或者hocr2pdf应用程序未正确创建pdf