Pdf ImageMagic和Tesseract的配置和优化_Pdf_Imagemagick_Ocr_Tesseract_Tiff

Pdf ImageMagic和Tesseract的配置和优化

pdf imagemagick

Pdf ImageMagic和Tesseract的配置和优化,pdf,imagemagick,ocr,tesseract,tiff,Pdf,Imagemagick,Ocr,Tesseract,Tiff,我们正在使用ImageMagic和tesseract尝试读取文档中的信息，但我们没有找到两种软件的正确配置和组合，以优化原始扫描的tif文档，并将tesseract应用于其以获取信息首先，我们使用配置为300 dpi的扫描仪扫描文档，而tif文档生成的使用大小为170KB 然后，我们尝试使用imagemagic对图像进行预处理，然后将其传递给tesseract 3.0.3，以生成包含文本文档的PDF 我们使用的第一个命令是： convert page.tiff -respect-par

我们正在使用ImageMagic和tesseract尝试读取文档中的信息，但我们没有找到两种软件的正确配置和组合，以优化原始扫描的tif文档，并将tesseract应用于其以获取信息

首先，我们使用配置为300 dpi的扫描仪扫描文档，而tif文档生成的使用大小为170KB

然后，我们尝试使用imagemagic对图像进行预处理，然后将其传递给tesseract 3.0.3，以生成包含文本文档的PDF

我们使用的第一个命令是：

    convert page.tiff -respect-parenthesis  -compress LZW -density 300 
-bordercolor black -border 1 -fuzz 1% -trim +repage -fill white -draw 
"color 0,0 floodfill" -alpha off -shave 1x1 -bordercolor black -border 2 
-fill white -draw "color 0,0 floodfill" -alpha off -shave 0x1 -fuzz 1% 
-deskew 40 +repage  temp.tiff

然后我们将其应用于tesseract，如下所示：

tesseract -l spa temp.tiff temp pdf

这会产生一个相当沉重的pdf文件，但tesseract无法读取单元格中的数据，或者如果标题背景较暗，则无法读取表格标题下表格中的数据

然后，我们尝试将此命令用于convert：

convert page.tiff -compress LZW -fuzz 1% -trim -alpha off -shave 1x1 temp.tiff

这将生成一个非常轻的pdf文档，但我们仍然存在同样的问题

有没有人能告诉我们，我们应该采取什么方法来优化图像，以获取示例中所示的信息？还是指导方针来优化图像以提高细分精度

我们试图处理的文档类型因字体类型和大小的不同而大不相同

如果在基于Unix的系统上，您可以尝试我的脚本textcleaner，at