Image 通过Tesseract改进结果_Image_Image Processing_Imagemagick_Ocr_Tesseract

Image 通过Tesseract改进结果

image image-processing imagemagick

Image 通过Tesseract改进结果,image,image-processing,imagemagick,ocr,tesseract,Image,Image Processing,Imagemagick,Ocr,Tesseract,我有一个文档（pdf），其中包含一些印地语文本。我使用以下命令将其转换为.tiff图像： magick convert -density 300 filename.pdf -depth 8 test.tiff 然后，我使用tesseract对.tiff图片执行OCR： C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin Tesseract Open Source OCR Engine v3.05.01 with Lept

我有一个文档（pdf），其中包含一些印地语文本。我使用以下命令将其转换为.tiff图像：

magick convert -density 300 filename.pdf -depth 8 test.tiff

然后，我使用

tesseract

对

.tiff

图片执行OCR：

C:\Users\H.P\Downloads>tesseract test.tiff test1.txt -l hin
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Page 1
Page 2
Page 3

但结果根本不合适。我可以选择以下方法来改进结果：

对图像进行预处理

培训特定字体的TeserAct

考虑到.pdf文件中文本的干净性，我倾向于假设它不需要任何预处理。尽管如此，由于文本是在列中，它可能需要一些分段。由于不确定应该采取什么措施，我想在做任何事情之前先问问自己

那么，为了使Tesseract的性能更好，应该对给定的图像做些什么呢

该文档看起来像：

删除线条/表格，这个答案可能会很有帮助。也许可以尝试将密度增加到600或1200。如果您让其他人知道您是否找到了解决方案，或者您是否更改了工具，或者对图像进行了一些操作以获得满意的解决方案，这将很有帮助。@SKR最终我所要做的就是升级到Tesseract 4，以改进结果。@SKR a。没有。因为PDF已经是高质量的文本提取。B对我必须把那些特殊的部分裁剪出来，然后用Tesseract对它们进行处理。C对看看对于箱号，我们可能会考虑使用

--psm 8

，但

--psm 7

对我更有效。