Image 通过Tesseract改进结果
我有一个文档(pdf),其中包含一些印地语文本。我使用以下命令将其转换为.tiff图像:Image 通过Tesseract改进结果,image,image-processing,imagemagick,ocr,tesseract,Image,Image Processing,Imagemagick,Ocr,Tesseract,我有一个文档(pdf),其中包含一些印地语文本。我使用以下命令将其转换为.tiff图像: magick convert -density 300 filename.pdf -depth 8 test.tiff 然后,我使用tesseract对.tiff图片执行OCR: C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin Tesseract Open Source OCR Engine v3.05.01 with Lept
magick convert -density 300 filename.pdf -depth 8 test.tiff
然后,我使用tesseract
对.tiff
图片执行OCR:
C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Page 1
Page 2
Page 3
但结果根本不合适。我可以选择以下方法来改进结果:
删除线条/表格,这个答案可能会很有帮助。也许可以尝试将密度增加到600或1200。如果您让其他人知道您是否找到了解决方案,或者您是否更改了工具,或者对图像进行了一些操作以获得满意的解决方案,这将很有帮助。@SKR最终我所要做的就是升级到Tesseract 4,以改进结果。@SKR a。没有。因为PDF已经是高质量的文本提取。B对我必须把那些特殊的部分裁剪出来,然后用Tesseract对它们进行处理。C对看看对于箱号,我们可能会考虑使用
--psm 8
,但--psm 7
对我更有效。