Image processing 在特定字体上训练Tesseract会导致tr文件为空_Image Processing_Ocr_Tesseract

Image processing 在特定字体上训练Tesseract会导致tr文件为空

image-processing

Image processing 在特定字体上训练Tesseract会导致tr文件为空,image-processing,ocr,tesseract,Image Processing,Ocr,Tesseract,我正在做一个大学项目，涉及到用一些其他字符作为分隔符来识别某个数字代码-主要是“.”、“/”等。例如，打印在产品上的数字代码通常采用数字字体，例如7段式字体或像素字体等因此，我正在尝试对Tesseract进行在线数字字体培训，类似于这些代码中使用的数字字体问题是，Tesseract将我提供的tiff文件识别为空白页我尝试过的事情： 1.使用jteseract和qt-box创建一个.box文件并手动调整框：在这种情况下，框和tiff由Tesseract读取，我得到的输出为1页，但无法识别字

我正在做一个大学项目，涉及到用一些其他字符作为分隔符来识别某个数字代码-主要是“.”、“/”等。例如，打印在产品上的数字代码通常采用数字字体，例如7段式字体或像素字体等

因此，我正在尝试对Tesseract进行在线数字字体培训，类似于这些代码中使用的数字字体

问题是，Tesseract将我提供的tiff文件识别为空白页

我尝试过的事情： 1.使用jteseract和qt-box创建一个.box文件并手动调整框：在这种情况下，框和tiff由Tesseract读取，我得到的输出为1页，但无法识别字符，tr文件为空白

使用Tesseract的makebox创建.box文件-在这种情况下，根本不创建任何框。 PS-例如，我设法使用更传统的字体Arial来训练它有什么想法吗？我附加了这样一个例子字体的图像。

谢谢大家!

我设法解决了大部分问题。发布它以防对其他人有帮助：我执行了两个步骤让Tesseract识别我的文本：

训练图像上的图像处理-我应用了一些图像处理方法，主要是放大、腐蚀和模糊，将文本中分割或分离的像素连接起来。将相同的步骤精确地应用于要输入OCR的图像非常重要

我注意到，由于某些原因，仅通过代码将图像保存为TIFF/PNG并不会将DPI设置保存在标题中，Tesseract将其标识为0 DPI。我想有一种代码方式可以做到这一点，但我没有时间，所以我只是在Photoshop中打开文件并从那里保存它们

我不完全确定是第1步、第2步还是两者都解决了我的问题，但大多数角色最终都被识别出来了