Image processing 在特定字体上训练Tesseract会导致tr文件为空

Image processing 在特定字体上训练Tesseract会导致tr文件为空,image-processing,ocr,tesseract,Image Processing,Ocr,Tesseract,我正在做一个大学项目,涉及到用一些其他字符作为分隔符来识别某个数字代码-主要是“.”、“/”等。 例如,打印在产品上的数字代码通常采用数字字体,例如7段式字体或像素字体等 因此,我正在尝试对Tesseract进行在线数字字体培训,类似于这些代码中使用的数字字体 问题是,Tesseract将我提供的tiff文件识别为空白页 我尝试过的事情: 1.使用jteseract和qt-box创建一个.box文件并手动调整框:在这种情况下,框和tiff由Tesseract读取,我得到的输出为1页,但无法识别字

我正在做一个大学项目,涉及到用一些其他字符作为分隔符来识别某个数字代码-主要是“.”、“/”等。 例如,打印在产品上的数字代码通常采用数字字体,例如7段式字体或像素字体等

因此,我正在尝试对Tesseract进行在线数字字体培训,类似于这些代码中使用的数字字体

问题是,Tesseract将我提供的tiff文件识别为空白页

我尝试过的事情: 1.使用jteseract和qt-box创建一个.box文件并手动调整框:在这种情况下,框和tiff由Tesseract读取,我得到的输出为1页,但无法识别字符,tr文件为空白

使用Tesseract的makebox创建.box文件-在这种情况下,根本不创建任何框。 PS-例如,我设法使用更传统的字体Arial来训练它 有什么想法吗? 我附加了这样一个例子字体的图像。


谢谢大家!

我设法解决了大部分问题。发布它以防对其他人有帮助: 我执行了两个步骤让Tesseract识别我的文本:

训练图像上的图像处理-我应用了一些图像处理方法,主要是放大、腐蚀和模糊,将文本中分割或分离的像素连接起来。将相同的步骤精确地应用于要输入OCR的图像非常重要

我注意到,由于某些原因,仅通过代码将图像保存为TIFF/PNG并不会将DPI设置保存在标题中,Tesseract将其标识为0 DPI。我想有一种代码方式可以做到这一点,但我没有时间,所以我只是在Photoshop中打开文件并从那里保存它们

我不完全确定是第1步、第2步还是两者都解决了我的问题,但大多数角色最终都被识别出来了