Image processing 具有tesseract缩放选项的重影脚本_Image Processing_Ocr_Ghostscript_Tesseract

Image processing 具有tesseract缩放选项的重影脚本

image-processing

Image processing 具有tesseract缩放选项的重影脚本,image-processing,ocr,ghostscript,tesseract,Image Processing,Ocr,Ghostscript,Tesseract,我正在使用ghostscript和tesseract从扫描的PDF中提取文本数据。但是pdf的某些部分的扫描结果并不准确。出于测试目的，我正在拍摄pdf的截图并将其传递给tesseract。下面是我面临的情景和问题场景1: 链接到屏幕截图：一旦我将此图像（放大125%的pdf截图）传递给tesseract，下面是我得到的结果文本：艺术标准数字生产场景2: 链接到屏幕截图：如果我将上面的屏幕截图（300%缩放）传递给tesseract，结果是好的物品编号以下是我在ghostscri

我正在使用ghostscript和tesseract从扫描的PDF中提取文本数据。但是pdf的某些部分的扫描结果并不准确。出于测试目的，我正在拍摄pdf的截图并将其传递给tesseract。下面是我面临的情景和问题

场景1:

链接到屏幕截图：

一旦我将此图像（放大125%的pdf截图）传递给tesseract，下面是我得到的结果文本：

艺术标准数字生产

场景2:

链接到屏幕截图：

如果我将上面的屏幕截图（300%缩放）传递给tesseract，结果是好的

物品编号

以下是我在ghostscript和tesseract中使用的参数：

鬼脚本： gswin64.exe-dNOPAUSE-dBATCH-dSAFER-sDEVICE=tifflzw-r600-sOutputFile=“C:\test\output.tiff”“C:\test\input.pdf”

teseract: tesseract.exe“c:\test\output.tif”“c:\test\output.html”-l eng-psm 6 hocr

从我的测试中，我觉得如果将图像的缩放版本传递给tesseract，结果是好的。在将图像转换为图像之前，是否可以使用ghostscript缩放图像？还是有更好的方法

感谢您的时间和帮助

你可以试试这个，

您可能知道这一点，与拍摄屏幕截图相关，您可以尝试使用imagemagik的convert命令将pdf转换为tif，或者如果其多页pdf使用pdftoppm，则可以使用convert命令将pdf转换为tif

尝试解压缩选项，例如：-sDEVICE=tiffgray或pnggray-r300在大多数情况下都足够好。