Tensorflow 如何创建专门的机器视觉OCR解决方案？_Tensorflow_Neural Network_Conv Neural Network

Tensorflow 如何创建专门的机器视觉OCR解决方案？

tensorflow neural-network

Tensorflow 如何创建专门的机器视觉OCR解决方案？,tensorflow,neural-network,conv-neural-network,Tensorflow,Neural Network,Conv Neural Network,我们需要阅读iPad摄像头拍摄的销售收据照片中的文字。下面是一个与我们需要阅读的内容类似的示例：这个问题有几个限制条件：我们需要读取总是出现在文本标记后面的总量（例如本例中的总计）字体总是一样的应用程序必须在没有网络连接的情况下脱机工作这就是我们迄今为止所做的尝试： Google Mobile Vision文本提取工作非常出色。但文本提取仅在Android中可用。我们需要在iOS中构建解决方案谷歌和微软都有基于云的机器视觉解决方案，它们也能非常准确地工作。但我们的应用程序需要离线

我们需要阅读iPad摄像头拍摄的销售收据照片中的文字。下面是一个与我们需要阅读的内容类似的示例：

这个问题有几个限制条件：

我们需要读取总是出现在文本标记后面的总量（例如本例中的总计）

字体总是一样的

应用程序必须在没有网络连接的情况下脱机工作

这就是我们迄今为止所做的尝试：

Google Mobile Vision文本提取工作非常出色。但文本提取仅在Android中可用。我们需要在iOS中构建解决方案
谷歌和微软都有基于云的机器视觉解决方案，它们也能非常准确地工作。但我们的应用程序需要离线工作
使用tesseract OCR。它的表现很差。毫无疑问，因为我们有一张照片，而不是扫描的黑白图像

我们现在正在考虑使用卷积神经网络创建自定义解决方案。我的问题是，我们如何建立一个模型，利用这两个约束来创建一个更简单但非常精确的解决方案

总金额始终显示在文本标记后面。我们可以放心地忽略文本的其余部分

文本始终为英文，字体相同

这是到目前为止我们已经准备好的通用管道

拉直图像并将其缩放到标准尺寸

使用conv net定位文本标记（Grad Total）应该相当容易。我们可以完全跳过图像的上半部分

我们不确定在这一点上还能做些什么。任何提示、建议和帮助都会很好

我意识到这是一个关于设计方法的问题，而不是一个具体的编程问题。对不起，如果违反了这样的指导原则，我建议你考虑一下4J.ORG解决方案。您可以在功能强大的机器上训练他们的网络，然后保存网络状态并在android上使用。他们解释了如何在android应用程序上借助java使用他们的网络

为什么授权OCR工具不是一个选项？Tesseract不是唯一的OCR。有一些商业工具工作得更好。甚至还有收据的特殊OCR，比如：免责声明：我为ABBYY工作