Tensorflow 如何创建专门的机器视觉OCR解决方案?

Tensorflow 如何创建专门的机器视觉OCR解决方案?,tensorflow,neural-network,conv-neural-network,Tensorflow,Neural Network,Conv Neural Network,我们需要阅读iPad摄像头拍摄的销售收据照片中的文字。下面是一个与我们需要阅读的内容类似的示例: 这个问题有几个限制条件: 我们需要读取总是出现在文本标记后面的总量(例如本例中的总计) 字体总是一样的 应用程序必须在没有网络连接的情况下脱机工作 这就是我们迄今为止所做的尝试: Google Mobile Vision文本提取工作非常出色。但文本提取仅在Android中可用。我们需要在iOS中构建解决方案 谷歌和微软都有基于云的机器视觉解决方案,它们也能非常准确地工作。但我们的应用程序需要离线

我们需要阅读iPad摄像头拍摄的销售收据照片中的文字。下面是一个与我们需要阅读的内容类似的示例:

这个问题有几个限制条件:

  • 我们需要读取总是出现在文本标记后面的总量(例如本例中的总计
  • 字体总是一样的
  • 应用程序必须在没有网络连接的情况下脱机工作
  • 这就是我们迄今为止所做的尝试:

    • Google Mobile Vision文本提取工作非常出色。但文本提取仅在Android中可用。我们需要在iOS中构建解决方案
    • 谷歌和微软都有基于云的机器视觉解决方案,它们也能非常准确地工作。但我们的应用程序需要离线工作
    • 使用tesseract OCR。它的表现很差。毫无疑问,因为我们有一张照片,而不是扫描的黑白图像
    我们现在正在考虑使用卷积神经网络创建自定义解决方案。我的问题是,我们如何建立一个模型,利用这两个约束来创建一个更简单但非常精确的解决方案

  • 总金额始终显示在文本标记后面。我们可以放心地忽略文本的其余部分
  • 文本始终为英文,字体相同
  • 这是到目前为止我们已经准备好的通用管道

  • 拉直图像并将其缩放到标准尺寸
  • 使用conv net定位文本标记(Grad Total)应该相当容易。我们可以完全跳过图像的上半部分
  • 我们不确定在这一点上还能做些什么。任何提示、建议和帮助都会很好


    我意识到这是一个关于设计方法的问题,而不是一个具体的编程问题。对不起,如果违反了这样的指导原则,我建议你考虑一下4J.ORG解决方案。您可以在功能强大的机器上训练他们的网络,然后保存网络状态并在android上使用。他们解释了如何在android应用程序上借助java使用他们的网络

    为什么授权OCR工具不是一个选项?Tesseract不是唯一的OCR。有一些商业工具工作得更好。甚至还有收据的特殊OCR,比如:免责声明:我为ABBYY工作