Opencv 提高低质量扫描图像的OCR质量_Opencv_Image Processing_Imagemagick_Ocr_Leptonica

Opencv 提高低质量扫描图像的OCR质量

opencv image-processing imagemagick

Opencv 提高低质量扫描图像的OCR质量,opencv,image-processing,imagemagick,ocr,leptonica,Opencv,Image Processing,Imagemagick,Ocr,Leptonica,自动反求和裁剪后，我有以下图像：我需要对这张图像进行光学字符识别。目前ABBYY Engine SDK 11 For Linux产生的结果不是很好： IMerasers - www,raiyirnieti'^C9,co;i,ni Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30

自动反求和裁剪后，我有以下图像：

我需要对这张图像进行光学字符识别。目前ABBYY Engine SDK 11 For Linux产生的结果不是很好：

IMerasers - www,raiyirnieti'^C9,co;i,ni                                                          
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30                                       
Guslomei: Service:                                 952-945-800G or 800-952-3^55                  
Jieaf5ftg: impaired;                               VA                                            
Pharmaaisto:                                       853-364-6331                                  
Medica Pfovic.&s:                                  80 ;j-2i5S-55"',2 o ■ www.rfledica.cori       
^ofricai'or Services:                              86i-7<5-9920                                  
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or                                                       
                                               ; mffiffiF********                               
Sviet iea Be tsvio a rieofift:                                                                  
Mocica Ca-linK frwso ,'ne: 430-962-9*9?

IMerasers-www，raiyirnieti'^C9，co；i、 倪
Clariis:Jv ocl'ca:PO 9ox 30998，S&M Luke C6y，UT 84“：30
Guslomei:服务：952-945-800G或800-952-3^55
Jieaf5ftg：受损；VA
制药公司：853-364-6331
梅迪卡·普费维奇&s:80；j-2i5S-55“'，2 o■ www.rfledica.cori
^ofricai'or Services:86i-7该图像已以相对较低的分辨率和噪声进行二值化
您可以通过

将分辨率提高一倍或三倍（有无双线性插值，差别不大）
平滑（小高斯滤波器、中值…）
再次二值化

但是你能恢复的东西很少，损害已经造成了。最有可能的是，预处理会恶化结果
正如伊夫所说，图像质量很低。然而，您应该能够改进您的结果：

尝试调整图像的大小。一些OCR需要特定尺寸的字母
尝试使用其他OCR，如tesseract
如果您必须阅读许多具有相同字体的文档，则可以使用该字体训练OCR
IMO，调整尺寸只会增加伤害。有些角色被无可挽回地改变了。使用在相同条件下获得的字符进行培训是一个好主意。谢谢，我必须弄清楚是否有可能针对特定字体培训ABBYY Engine SDK，如果有，它将如何影响OCR过程的其余部分。。对于其他文档…请发布您的原始输入图像？它是什么格式的？它是PDF、JPG还是二进制压缩的TIFF？如果你能以更高的分辨率处理它，那会有帮助。@fmw42我已经添加了原始的输入图像这是真正的jpg扫描，而且质量很低吗？如果是这样，我怀疑你能提高你的成绩。如果扫描的分辨率更高或是PDF格式，那么它可能会得到改进。你能以更高的密度重新扫描吗？从原稿以更高的密度重新扫描。作为PDF扫描时，可以在读取PDF并转换为光栅时设置密度。这意味着您以后可以从PDF中获得更高质量的光栅结果。无论哪种方式，扫描密度越高越好。大多数扫描仪允许你在扫描时设置密度。最好是用PDF扫描进行实验。有时最好从PDF中提取嵌入的图像。尝试convert-density 300 image.pdf result.png
。或者将密度设置得更高，如果可行的话，看看是否更好。由于有损压缩，最好不要保存到JPG。所以保存到PNG或TIFF。