Python 用于打印文档的结构神经网络OCR

Python 用于打印文档的结构神经网络OCR,python,neural-network,tensorflow,ocr,conv-neural-network,Python,Neural Network,Tensorflow,Ocr,Conv Neural Network,我正在学习神经网络,使用tensorflow为打印文档建立OCR 你介意给我一些建议,哪种结构的神经网络适合识别字符吗。 我很困惑,因为我是个新手,有很多神经网络设计 我发现了分类器,但它们的架构只有数字。 我不知道他们的架构是否可以与角色配合使用 谢谢正如您正确指出的,识别文档与识别单个字符是不同的。这是一个复杂的系统,需要时间从头开始实施。首先是预处理问题。你需要找到文本的位置,也许稍微旋转一下,等等。这可以通过启发式和类似的库来完成。您还必须检测诸如页码、页眉/页脚、表格/数字等内容 然后

我正在学习神经网络,使用tensorflow为打印文档建立OCR

你介意给我一些建议,哪种结构的神经网络适合识别字符吗。 我很困惑,因为我是个新手,有很多神经网络设计

我发现了分类器,但它们的架构只有数字。 我不知道他们的架构是否可以与角色配合使用


谢谢

正如您正确指出的,识别文档与识别单个字符是不同的。这是一个复杂的系统,需要时间从头开始实施。首先是预处理问题。你需要找到文本的位置,也许稍微旋转一下,等等。这可以通过启发式和类似的库来完成。您还必须检测诸如页码、页眉/页脚、表格/数字等内容

然后,在某些情况下,您可以采用“简单”的方法,使用启发式方法将文本分割为字符。这适用于块字符,但不适用于草书

如果给出了分段,你不必猜测,你必须解决多个相关问题,每个问题都像MNIST,但它们是相关的,因为决策不是独立的。你可以查找(最大熵马尔可夫模型)和HMM(,和),并研究它们之间的区别。你也可以阅读

因此,如果你想让自己变得简单,那么一旦细分被揭示(通过opencv中的一些启发式),你基本上可以多次运行MNIST分类器。除此之外,你还必须运行一个基于每个决策得分的最佳最终序列,以及一个“语言模型”,它指定字母彼此接近的可能性


如果你是从零开始,这不是一件容易的事。你可能需要几个月才能基本了解。祝你黑客快乐!

谢谢你的建议。我的目标是使用神经网络识别每个字母(例如:a,b…x,y,z,a,b…).现在,我可以从图片中分割每个字母,通过运行本教程中的示例并阅读本书来学习tensorflow,因此我现在困惑的是如何找到一个好的tensorflow模型或体系结构来识别。谢谢你,你可以对字母使用相同的MNIST分类器。体系结构中没有任何固有的缺陷仅此而已。谢谢,然后我将选择错误率最低的分类器。关于训练数据集字母。我打印然后扫描此文件,然后在扫描的图片中分割每个字母,以便为每个字母生成大量训练数据图片。我的解决方案正确吗?听起来是一种合理的方法。谢谢您的帮助支持,我稍后会研究并更新情况。