Pdf ImageMagic和Tesseract的配置和优化

Pdf ImageMagic和Tesseract的配置和优化,pdf,imagemagick,ocr,tesseract,tiff,Pdf,Imagemagick,Ocr,Tesseract,Tiff,我们正在使用ImageMagic和tesseract尝试读取文档中的信息,但我们没有找到两种软件的正确配置和组合,以优化原始扫描的tif文档,并将tesseract应用于其以获取信息 首先,我们使用配置为300 dpi的扫描仪扫描文档,而tif文档生成的使用大小为170KB 然后,我们尝试使用imagemagic对图像进行预处理,然后将其传递给tesseract 3.0.3,以生成包含文本文档的PDF 我们使用的第一个命令是: convert page.tiff -respect-par

我们正在使用ImageMagic和tesseract尝试读取文档中的信息,但我们没有找到两种软件的正确配置和组合,以优化原始扫描的tif文档,并将tesseract应用于其以获取信息

首先,我们使用配置为300 dpi的扫描仪扫描文档,而tif文档生成的使用大小为170KB

然后,我们尝试使用imagemagic对图像进行预处理,然后将其传递给tesseract 3.0.3,以生成包含文本文档的PDF

我们使用的第一个命令是:

    convert page.tiff -respect-parenthesis  -compress LZW -density 300 
-bordercolor black -border 1 -fuzz 1% -trim +repage -fill white -draw 
"color 0,0 floodfill" -alpha off -shave 1x1 -bordercolor black -border 2 
-fill white -draw "color 0,0 floodfill" -alpha off -shave 0x1 -fuzz 1% 
-deskew 40 +repage  temp.tiff
然后我们将其应用于tesseract,如下所示:

tesseract -l spa temp.tiff temp pdf
这会产生一个相当沉重的pdf文件,但tesseract无法读取单元格中的数据,或者如果标题背景较暗,则无法读取表格标题下表格中的数据

然后,我们尝试将此命令用于convert:

convert page.tiff -compress LZW -fuzz 1% -trim -alpha off -shave 1x1 temp.tiff
这将生成一个非常轻的pdf文档,但我们仍然存在同样的问题

有没有人能告诉我们,我们应该采取什么方法来优化图像,以获取示例中所示的信息?还是指导方针来优化图像以提高细分精度


我们试图处理的文档类型因字体类型和大小的不同而大不相同

如果在基于Unix的系统上,您可以尝试我的脚本textcleaner,at

如果在基于Unix的系统上,您可以尝试我的脚本textcleaner,at