Image processing 具有tesseract缩放选项的重影脚本
我正在使用ghostscript和tesseract从扫描的PDF中提取文本数据。但是pdf的某些部分的扫描结果并不准确。出于测试目的,我正在拍摄pdf的截图并将其传递给tesseract。下面是我面临的情景和问题 场景1: 链接到屏幕截图: 一旦我将此图像(放大125%的pdf截图)传递给tesseract,下面是我得到的结果文本: 艺术标准 数字生产 场景2: 链接到屏幕截图: 如果我将上面的屏幕截图(300%缩放)传递给tesseract,结果是好的 物品编号 以下是我在ghostscript和tesseract中使用的参数: 鬼脚本: gswin64.exe-dNOPAUSE-dBATCH-dSAFER-sDEVICE=tifflzw-r600-sOutputFile=“C:\test\output.tiff”“C:\test\input.pdf” teseract: tesseract.exe“c:\test\output.tif”“c:\test\output.html”-l eng-psm 6 hocr 从我的测试中,我觉得如果将图像的缩放版本传递给tesseract,结果是好的。在将图像转换为图像之前,是否可以使用ghostscript缩放图像?还是有更好的方法 感谢您的时间和帮助 你可以试试这个,Image processing 具有tesseract缩放选项的重影脚本,image-processing,ocr,ghostscript,tesseract,Image Processing,Ocr,Ghostscript,Tesseract,我正在使用ghostscript和tesseract从扫描的PDF中提取文本数据。但是pdf的某些部分的扫描结果并不准确。出于测试目的,我正在拍摄pdf的截图并将其传递给tesseract。下面是我面临的情景和问题 场景1: 链接到屏幕截图: 一旦我将此图像(放大125%的pdf截图)传递给tesseract,下面是我得到的结果文本: 艺术标准 数字生产 场景2: 链接到屏幕截图: 如果我将上面的屏幕截图(300%缩放)传递给tesseract,结果是好的 物品编号 以下是我在ghostscri
您可能知道这一点,与拍摄屏幕截图相关,您可以尝试使用imagemagik的convert命令将pdf转换为tif,或者如果其多页pdf使用pdftoppm,则可以使用convert命令将pdf转换为tif 尝试解压缩选项,例如:-sDEVICE=tiffgray或pnggray-r300在大多数情况下都足够好。