Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Image processing 具有tesseract缩放选项的重影脚本_Image Processing_Ocr_Ghostscript_Tesseract - Fatal编程技术网

Image processing 具有tesseract缩放选项的重影脚本

Image processing 具有tesseract缩放选项的重影脚本,image-processing,ocr,ghostscript,tesseract,Image Processing,Ocr,Ghostscript,Tesseract,我正在使用ghostscript和tesseract从扫描的PDF中提取文本数据。但是pdf的某些部分的扫描结果并不准确。出于测试目的,我正在拍摄pdf的截图并将其传递给tesseract。下面是我面临的情景和问题 场景1: 链接到屏幕截图: 一旦我将此图像(放大125%的pdf截图)传递给tesseract,下面是我得到的结果文本: 艺术标准 数字生产 场景2: 链接到屏幕截图: 如果我将上面的屏幕截图(300%缩放)传递给tesseract,结果是好的 物品编号 以下是我在ghostscri

我正在使用ghostscript和tesseract从扫描的PDF中提取文本数据。但是pdf的某些部分的扫描结果并不准确。出于测试目的,我正在拍摄pdf的截图并将其传递给tesseract。下面是我面临的情景和问题

场景1:

链接到屏幕截图:

一旦我将此图像(放大125%的pdf截图)传递给tesseract,下面是我得到的结果文本:

艺术标准 数字生产

场景2:

链接到屏幕截图:

如果我将上面的屏幕截图(300%缩放)传递给tesseract,结果是好的

物品编号

以下是我在ghostscript和tesseract中使用的参数:

鬼脚本: gswin64.exe-dNOPAUSE-dBATCH-dSAFER-sDEVICE=tifflzw-r600-sOutputFile=“C:\test\output.tiff”“C:\test\input.pdf”

teseract: tesseract.exe“c:\test\output.tif”“c:\test\output.html”-l eng-psm 6 hocr

从我的测试中,我觉得如果将图像的缩放版本传递给tesseract,结果是好的。在将图像转换为图像之前,是否可以使用ghostscript缩放图像?还是有更好的方法

感谢您的时间和帮助

你可以试试这个,


您可能知道这一点,与拍摄屏幕截图相关,您可以尝试使用imagemagik的convert命令将pdf转换为tif,或者如果其多页pdf使用pdftoppm,则可以使用convert命令将pdf转换为tif

尝试解压缩选项,例如:-sDEVICE=tiffgray或pnggray-r300在大多数情况下都足够好。