Image 如何训练tesseract只识别数字

Image 如何训练tesseract只识别数字,image,image-processing,ocr,tesseract,Image,Image Processing,Ocr,Tesseract,我有一些只包含数字的产品标签样本。然而,我设法处理这些图像,以便我可以使用这些图像来识别数字。我使用了经过英语培训的数据文件,但结果非常糟糕。是否有一种方法可以使用模板图像训练数据集 我参考了培训tesseract的文档,但无法使用图像进行培训 但是在有了box文件之后,我如何才能生成eng.traineddata 谁能帮帮我吗 这是产品标签的裁剪原始图像 这是经过处理的产品标签图像您可以尝试设置要识别的字符白名单(案例中的数字)。该参数称为tessedit\u char\u白名单。老实说,结果

我有一些只包含数字的产品标签样本。然而,我设法处理这些图像,以便我可以使用这些图像来识别数字。我使用了经过英语培训的数据文件,但结果非常糟糕。是否有一种方法可以使用模板图像训练数据集

我参考了培训tesseract的文档,但无法使用图像进行培训

但是在有了box文件之后,我如何才能生成eng.traineddata

谁能帮帮我吗

这是产品标签的裁剪原始图像


这是经过处理的产品标签图像

您可以尝试设置要识别的字符白名单(案例中的数字)。该参数称为
tessedit\u char\u白名单
。老实说,结果可能是混合的。

如果您有支持白名单的e traineddata集,则只能使用白名单。如果您想快速获得结果,请使用Tesseract 3.x,应该有大量支持白名单的trainedata可用(这非常有用)

我自己使用了Tesseract 4,其中包含一个traineddata,它与以下选项一起发挥了巨大的作用: -l位数字——psm 10

有关数据集的链接,请参阅本文: