Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/opencv/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Opencv 提高低质量扫描图像的OCR质量_Opencv_Image Processing_Imagemagick_Ocr_Leptonica - Fatal编程技术网

Opencv 提高低质量扫描图像的OCR质量

Opencv 提高低质量扫描图像的OCR质量,opencv,image-processing,imagemagick,ocr,leptonica,Opencv,Image Processing,Imagemagick,Ocr,Leptonica,自动反求和裁剪后,我有以下图像: 我需要对这张图像进行光学字符识别。目前ABBYY Engine SDK 11 For Linux产生的结果不是很好: IMerasers - www,raiyirnieti'^C9,co;i,ni Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30

自动反求和裁剪后,我有以下图像:

我需要对这张图像进行光学字符识别。目前ABBYY Engine SDK 11 For Linux产生的结果不是很好:

IMerasers - www,raiyirnieti'^C9,co;i,ni                                                          
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30                                       
Guslomei: Service:                                 952-945-800G or 800-952-3^55                  
Jieaf5ftg: impaired;                               VA                                            
Pharmaaisto:                                       853-364-6331                                  
Medica Pfovic.&s:                                  80 ;j-2i5S-55"',2 o ■ www.rfledica.cori       
^ofricai'or Services:                              86i-7<5-9920                                  
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or                                                       
                                               ; mffiffiF********                               
Sviet iea Be tsvio a rieofift:                                                                  
Mocica Ca-linK frwso ,'ne: 430-962-9*9?    
IMerasers-www,raiyirnieti'^C9,co;i、 倪
Clariis:Jv ocl'ca:PO 9ox 30998,S&M Luke C6y,UT 84“:30
Guslomei:服务:952-945-800G或800-952-3^55
Jieaf5ftg:受损;VA
制药公司:853-364-6331
梅迪卡·普费维奇&s:80;j-2i5S-55“',2 o■ www.rfledica.cori

^ofricai'or Services:86i-7该图像已以相对较低的分辨率和噪声进行二值化

您可以通过

  • 将分辨率提高一倍或三倍(有无双线性插值,差别不大)

  • 平滑(小高斯滤波器、中值…)

  • 再次二值化

但是你能恢复的东西很少,损害已经造成了。最有可能的是,预处理会恶化结果


正如伊夫所说,图像质量很低。然而,您应该能够改进您的结果:

  • 尝试调整图像的大小。一些OCR需要特定尺寸的字母
  • 尝试使用其他OCR,如tesseract
  • 如果您必须阅读许多具有相同字体的文档,则可以使用该字体训练OCR

IMO,调整尺寸只会增加伤害。有些角色被无可挽回地改变了。使用在相同条件下获得的字符进行培训是一个好主意。谢谢,我必须弄清楚是否有可能针对特定字体培训ABBYY Engine SDK,如果有,它将如何影响OCR过程的其余部分。。对于其他文档…请发布您的原始输入图像?它是什么格式的?它是PDF、JPG还是二进制压缩的TIFF?如果你能以更高的分辨率处理它,那会有帮助。@fmw42我已经添加了原始的输入图像这是真正的jpg扫描,而且质量很低吗?如果是这样,我怀疑你能提高你的成绩。如果扫描的分辨率更高或是PDF格式,那么它可能会得到改进。你能以更高的密度重新扫描吗?从原稿以更高的密度重新扫描。作为PDF扫描时,可以在读取PDF并转换为光栅时设置密度。这意味着您以后可以从PDF中获得更高质量的光栅结果。无论哪种方式,扫描密度越高越好。大多数扫描仪允许你在扫描时设置密度。最好是用PDF扫描进行实验。有时最好从PDF中提取嵌入的图像。尝试
convert-density 300 image.pdf result.png
。或者将密度设置得更高,如果可行的话,看看是否更好。由于有损压缩,最好不要保存到JPG。所以保存到PNG或TIFF。