Android Tesseract OCR上的数字编号

Android Tesseract OCR上的数字编号,android,opencv,tesseract,Android,Opencv,Tesseract,解决方案: 我必须训练自己的数据,用OCR进行测试。这似乎很有效,但我不知道为什么Arturaugus的训练数据对我不起作用=( 利用我经过培训的数据,为了获得良好的OCR结果,我已经完成了以下几个阶段(我使用OpenCV完成): 首先,将图像转换为黑白 其次,对图像应用高斯模糊 第三,对图像应用阈值滤波器 这样,就可以识别七段数字 问题: 我正在尝试通过Android上的Tesseract获得OCR,我正在使用以下图片测试该应用程序(通过): 我使用的是arturaugusto()训练

解决方案:

我必须训练自己的数据,用OCR进行测试。这似乎很有效,但我不知道为什么Arturaugus的训练数据对我不起作用=(

利用我经过培训的数据,为了获得良好的OCR结果,我已经完成了以下几个阶段(我使用OpenCV完成):

  • 首先,将图像转换为黑白
  • 其次,对图像应用高斯模糊
  • 第三,对图像应用阈值滤波器
这样,就可以识别七段数字

问题:

我正在尝试通过Android上的Tesseract获得OCR,我正在使用以下图片测试该应用程序(通过):

我使用的是arturaugusto()训练的数据,但OCR的错误结果是:

884288

零被认为是8,我不知道为什么

我通过OpenCV对图像应用高斯模糊和阈值过滤器,处理的图像如下:


是否有其他经过培训的数据,或者您知道解决问题的方法吗?

尝试使用腐蚀来填补数据段之间的空白。 我认为问题在于tesseract无法处理分割良好的字体


在OpenCV python中,我使用
cv2.correase(display,kernel,iterations=correation\u iters)
来解决这个问题。

是的,我尝试过填补片段之间的空白,但它也不适用于我:(我已经用相同的字体训练了我自己的数据,现在,我不知道确切的原因,OCR可以很好地处理这些新的训练数据。几分钟后,我将用解决方案和存储库方向更新问题。非常感谢!嘿,阿德里,你的解决方案有任何更新吗?:-)嗨,Felipe!我已经训练了我自己的数据…试试看,看看它是否对你有用。记住我在POST的“解决方案”部分评论的所有阶段,我设法使用python pillow处理你的测试图像,并获得与你类似的bw图像,但当我用训练过的数据运行tesseract时,它会返回一个空白页(!)。我不确定我是否正确安装了经过培训的数据…我将所有内容复制到文件夹/opt/local/share/tessdata(我在Mac OS X上)。当我运行tesseract时,会显示“let”语言。你有什么建议吗?顺便问一下,你的培训数据不再将“0”误认为“8”(如你在问题中所述)?感谢adri1992提供的经过培训的数据。嗨,Zeeshan!我培训了自己的数据。它应该使用那种具体的字体