Android Tesseract返回非英语字符

Android Tesseract返回非英语字符,android,ocr,tesseract,Android,Ocr,Tesseract,我最近学习了一些教程来设置Tesseract,现在我正在尝试查看OCR是否正常工作。当我拍照并得到文本时,有时会得到非英语字符。这实际上看起来像胡言乱语。我在下面发布了一个输出示例: ; .'—--~_~:~ ear .::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_- .—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:. 我拍的照片是link中研究文章的第一页。我不知道为什么会这样。我在tessdata子目

我最近学习了一些教程来设置Tesseract,现在我正在尝试查看OCR是否正常工作。当我拍照并得到文本时,有时会得到非英语字符。这实际上看起来像胡言乱语。我在下面发布了一个输出示例:

 ; .'—--~_~:~ ear
 .::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_-
 .—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:.

我拍的照片是link中研究文章的第一页。我不知道为什么会这样。我在tessdata子目录中也有eng.traineddata文件

我想到两件事:

  • 为图像中使用的字体训练tesseract
  • 事先编辑图像
    • 灰度
    • 调整大小
    • 扩张
    • 平滑
    • 高斯模糊
    • 。。。等等

对于编辑,我可以推荐。

我想到两件事:

  • 为图像中使用的字体训练tesseract
  • 事先编辑图像
    • 灰度
    • 调整大小
    • 扩张
    • 平滑
    • 高斯模糊
    • 。。。等等
对于编辑我可以推荐