Image 通过Tesseract改进结果

Image 通过Tesseract改进结果,image,image-processing,imagemagick,ocr,tesseract,Image,Image Processing,Imagemagick,Ocr,Tesseract,我有一个文档(pdf),其中包含一些印地语文本。我使用以下命令将其转换为.tiff图像: magick convert -density 300 filename.pdf -depth 8 test.tiff 然后,我使用tesseract对.tiff图片执行OCR: C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin Tesseract Open Source OCR Engine v3.05.01 with Lept

我有一个文档(pdf),其中包含一些印地语文本。我使用以下命令将其转换为.tiff图像:

magick convert -density 300 filename.pdf -depth 8 test.tiff
然后,我使用
tesseract
.tiff
图片执行OCR:

C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Page 1
Page 2
Page 3
但结果根本不合适。我可以选择以下方法来改进结果:

  • 对图像进行预处理
  • 培训特定字体的TeserAct
  • 考虑到.pdf文件中文本的干净性,我倾向于假设它不需要任何预处理。尽管如此,由于文本是在列中,它可能需要一些分段。由于不确定应该采取什么措施,我想在做任何事情之前先问问自己

    那么,为了使Tesseract的性能更好,应该对给定的图像做些什么呢

    该文档看起来像:

    删除线条/表格,这个答案可能会很有帮助。也许可以尝试将密度增加到600或1200。如果您让其他人知道您是否找到了解决方案,或者您是否更改了工具,或者对图像进行了一些操作以获得满意的解决方案,这将很有帮助。@SKR最终我所要做的就是升级到Tesseract 4,以改进结果。@SKR a。没有。因为PDF已经是高质量的文本提取。B对我必须把那些特殊的部分裁剪出来,然后用Tesseract对它们进行处理。C对看看对于箱号,我们可能会考虑使用
    --psm 8
    ,但
    --psm 7
    对我更有效。