使用openjpeg2运行tesseract 4.1-无法生成pdf输出
我已在我的RedHat机器上安装:使用openjpeg2运行tesseract 4.1-无法生成pdf输出,pdf,output,tesseract,Pdf,Output,Tesseract,我已在我的RedHat机器上安装: (py36_maw) [rvp@lib-archcoll box]$ tesseract -v tesseract 4.1.0 leptonica-1.78.0 libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libopenjp2 2.3.1 Found SSE 我尝试根据我能找到的文档运行,以生成pdf输出: (py36_maw) [r
(py36_maw) [rvp@lib-archcoll box]$ tesseract -v
tesseract 4.1.0
leptonica-1.78.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libopenjp2 2.3.1
Found SSE
我尝试根据我能找到的文档运行,以生成pdf输出:
(py36_maw) [rvp@lib-archcoll box]$ time tesseract test.jp2 out -l eng PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.0 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 275
这需要10秒的时间,并生成文件out.txt,其中包含很好的OCR到文本的转换
然而,它试图读取一个名为PDF的文件,但我不知道如何获得PDF输出
我读过各种文档,其中最有希望的似乎是建议编辑配置文件,但我能猜到的唯一文档是相关的,通过谷歌搜索“tesseract 4.1 config”,列出了许多旧版本tesseract的“config”变量名,但似乎没有一个表明我可以指定生成pdf输出,更不用说tesseract 4.1了
如何通过CLI调用tesseract 4.1(使用libopenjp2.3.1)从jp2输入文件生成pdf输出?附加问题:如何让它在一次运行中同时生成txt和pdf输出
Robert在进行了更多的浏览和挖掘之后,假设读者也做了一些工作,并且知道tesseract使用了什么TesserData_前缀,以下是对我有用的步骤:
tessedit_create_pdf 1 Write .pdf output file
tessedit_create txt 1 Write .txt output file