Opencv 提高低质量扫描图像的OCR质量
自动反求和裁剪后,我有以下图像: 我需要对这张图像进行光学字符识别。目前ABBYY Engine SDK 11 For Linux产生的结果不是很好:Opencv 提高低质量扫描图像的OCR质量,opencv,image-processing,imagemagick,ocr,leptonica,Opencv,Image Processing,Imagemagick,Ocr,Leptonica,自动反求和裁剪后,我有以下图像: 我需要对这张图像进行光学字符识别。目前ABBYY Engine SDK 11 For Linux产生的结果不是很好: IMerasers - www,raiyirnieti'^C9,co;i,ni Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30
IMerasers - www,raiyirnieti'^C9,co;i,ni
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30
Guslomei: Service: 952-945-800G or 800-952-3^55
Jieaf5ftg: impaired; VA
Pharmaaisto: 853-364-6331
Medica Pfovic.&s: 80 ;j-2i5S-55"',2 o ■ www.rfledica.cori
^ofricai'or Services: 86i-7<5-9920
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or
; mffiffiF********
Sviet iea Be tsvio a rieofift:
Mocica Ca-linK frwso ,'ne: 430-962-9*9?
IMerasers-www,raiyirnieti'^C9,co;i、 倪
Clariis:Jv ocl'ca:PO 9ox 30998,S&M Luke C6y,UT 84“:30
Guslomei:服务:952-945-800G或800-952-3^55
Jieaf5ftg:受损;VA
制药公司:853-364-6331
梅迪卡·普费维奇&s:80;j-2i5S-55“',2 o■ www.rfledica.cori
^ofricai'or Services:86i-7该图像已以相对较低的分辨率和噪声进行二值化
您可以通过
- 将分辨率提高一倍或三倍(有无双线性插值,差别不大)
- 平滑(小高斯滤波器、中值…)
- 再次二值化
但是你能恢复的东西很少,损害已经造成了。最有可能的是,预处理会恶化结果
正如伊夫所说,图像质量很低。然而,您应该能够改进您的结果:
- 尝试调整图像的大小。一些OCR需要特定尺寸的字母
- 尝试使用其他OCR,如tesseract
- 如果您必须阅读许多具有相同字体的文档,则可以使用该字体训练OCR
IMO,调整尺寸只会增加伤害。有些角色被无可挽回地改变了。使用在相同条件下获得的字符进行培训是一个好主意。谢谢,我必须弄清楚是否有可能针对特定字体培训ABBYY Engine SDK,如果有,它将如何影响OCR过程的其余部分。。对于其他文档…请发布您的原始输入图像?它是什么格式的?它是PDF、JPG还是二进制压缩的TIFF?如果你能以更高的分辨率处理它,那会有帮助。@fmw42我已经添加了原始的输入图像这是真正的jpg扫描,而且质量很低吗?如果是这样,我怀疑你能提高你的成绩。如果扫描的分辨率更高或是PDF格式,那么它可能会得到改进。你能以更高的密度重新扫描吗?从原稿以更高的密度重新扫描。作为PDF扫描时,可以在读取PDF并转换为光栅时设置密度。这意味着您以后可以从PDF中获得更高质量的光栅结果。无论哪种方式,扫描密度越高越好。大多数扫描仪允许你在扫描时设置密度。最好是用PDF扫描进行实验。有时最好从PDF中提取嵌入的图像。尝试convert-density 300 image.pdf result.png
。或者将密度设置得更高,如果可行的话,看看是否更好。由于有损压缩,最好不要保存到JPG。所以保存到PNG或TIFF。