使用openjpeg2运行tesseract 4.1-无法生成pdf输出_Pdf_Output_Tesseract

使用openjpeg2运行tesseract 4.1-无法生成pdf输出

pdf

使用openjpeg2运行tesseract 4.1-无法生成pdf输出,pdf,output,tesseract,Pdf,Output,Tesseract,我已在我的RedHat机器上安装： (py36_maw) [rvp@lib-archcoll box]$ tesseract -v tesseract 4.1.0 leptonica-1.78.0 libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libopenjp2 2.3.1 Found SSE 我尝试根据我能找到的文档运行，以生成pdf输出： (py36_maw) [r

我已在我的RedHat机器上安装：

(py36_maw) [rvp@lib-archcoll box]$ tesseract -v
tesseract 4.1.0
 leptonica-1.78.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libopenjp2 2.3.1
 Found SSE

我尝试根据我能找到的文档运行，以生成pdf输出：

(py36_maw) [rvp@lib-archcoll box]$ time tesseract test.jp2 out -l eng PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.0 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 275

这需要10秒的时间，并生成文件out.txt，其中包含很好的OCR到文本的转换

然而，它试图读取一个名为PDF的文件，但我不知道如何获得PDF输出

我读过各种文档，其中最有希望的似乎是建议编辑配置文件，但我能猜到的唯一文档是相关的，通过谷歌搜索“tesseract 4.1 config”，列出了许多旧版本tesseract的“config”变量名，但似乎没有一个表明我可以指定生成pdf输出，更不用说tesseract 4.1了

如何通过CLI调用tesseract 4.1（使用libopenjp2.3.1）从jp2输入文件生成pdf输出？附加问题：如何让它在一次运行中同时生成txt和pdf输出

Robert

在进行了更多的浏览和挖掘之后，假设读者也做了一些工作，并且知道tesseract使用了什么TesserData_前缀，以下是对我有用的步骤：

从以下位置下载pdf.ttf文件：

将pdf.ttf复制到目录$TESSDATA_PREFIX中，并确保该变量已导出到shell中

提示：使用command:tesseract--print parameters#来发现您可以在自己的配置文件中使用的已定义变量名

使用test.jp2文件转到目录，并使用以下行创建文件配置

（注意：或者您也可以将配置文件放在TESSDATA_PREFIX目录中，并将其始终设置为默认值。未测试。）

在该目录中运行：

$tesseract test.jp2 outputbase-l eng config

验证您的成功：它运行并生成文件outputbase.txt和outputbase.pdf。txt文件看起来很好，可搜索的pdf在pdf查看器中看起来和工作正常，也就是说，您可以搜索和查找文本字符串

希望这对其他人有帮助

tessedit_create_pdf     1       Write .pdf output file
tessedit_create txt     1       Write .txt output file