Batch file OCR批处理tiff到文本

Batch file OCR批处理tiff到文本,batch-file,ocr,tiff,tesseract,Batch File,Ocr,Tiff,Tesseract,我有一个问题,我需要批量转换50000 tiff的到50000 txt文件分别。我知道abbyy finereader和其他一些软件可能能够做到这一点,但免费解决方案将是最好的。我也一直在研究tesseract。是否有人知道有任何脚本或程序使用tesseract以高质量输出自动执行此操作 提前感谢在我看来,无论您是否在寻找免费解决方案,Tesseract都会给您带来最好的结果 如果您知道如何转换一个文件,然后发回您使用的命令,那么将批处理脚本合并在一起以处理多个文件将很容易。在我看来,我认为Te

我有一个问题,我需要批量转换50000 tiff的到50000 txt文件分别。我知道abbyy finereader和其他一些软件可能能够做到这一点,但免费解决方案将是最好的。我也一直在研究tesseract。是否有人知道有任何脚本或程序使用tesseract以高质量输出自动执行此操作


提前感谢

在我看来,无论您是否在寻找免费解决方案,Tesseract都会给您带来最好的结果


如果您知道如何转换一个文件,然后发回您使用的命令,那么将批处理脚本合并在一起以处理多个文件将很容易。

在我看来,我认为Tesseract将为您提供最佳结果,无论您是否正在寻找免费解决方案


如果您知道如何转换一个文件,然后发回所使用的命令,那么就可以很容易地将批处理脚本组合在一起以处理多个文件。

对于Tesseract的免费解决方案,这里有一个简单的命令行批处理文件。根据需要更改可变内容和/或创建文件夹:

:Start
   @Echo off
   Set _SourcePath=C:\tifs\*.tif
   Set _OutputPath=C:\txts\
   Set _Tesseract="C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"
:Convert
   For %%A in (%_SourcePath%) Do Echo Converting %%A...&%_Tesseract% %%A %_OutputPath%%%~nA
:End   
   Set "_SourcePath="
   Set "_OutputPath="
   Set "_Tesseract="

对于Tesseract的免费解决方案,这里有一个简单的命令行批处理文件。根据需要更改可变内容和/或创建文件夹:

:Start
   @Echo off
   Set _SourcePath=C:\tifs\*.tif
   Set _OutputPath=C:\txts\
   Set _Tesseract="C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"
:Convert
   For %%A in (%_SourcePath%) Do Echo Converting %%A...&%_Tesseract% %%A %_OutputPath%%%~nA
:End   
   Set "_SourcePath="
   Set "_OutputPath="
   Set "_Tesseract="

看看Tesseract的Java/.NET前端;它的功能似乎适合您的需要。

看看Tesseract的Java/.NET前端;它的功能似乎适合您的需要。

实际上,我已经编写了一个shell脚本,在Linux中非常简单地实现了这一点。所以现在我的问题是tesseract本身。对于非常“简单”的示例,它工作得很好。但我每30个左右的TIFF中就有1个出现了各种各样的错误。e、 g.“TIFF目录缺少必需的“stripbycounts”字段”。所以我只是一个接一个地用谷歌搜索来解决这个问题。实际上,我已经编写了一个shell脚本,在Linux中非常简单地实现了这一点。所以现在我的问题是tesseract本身。对于非常“简单”的示例,它工作得很好。但我每30个左右的TIFF中就有1个出现了各种各样的错误。e、 g.“TIFF目录缺少必需的“stripbycounts”字段”。所以我只是一个接一个地用谷歌搜索来解决这个问题。你怎么会认为tesseract会比商业工具产生更好的效果?你有试过比较吗?在这里,您可以找到实际的比较:是什么让您认为tesseract会比商业工具产生更好的结果?你有试过比较吗?在这里您可以找到实际的比较: