Python 光学字符识别的张量流模型

Python 光学字符识别的张量流模型,python,tensorflow,deep-learning,mnist,Python,Tensorflow,Deep Learning,Mnist,我是Tensorflow的新手,我正在尝试建立一个能够对我的图像执行OCR的模型。我必须阅读9个字符(在所有图像中固定)、数字和字母。我的模型与此类似 我的问题是,我是否应该先针对每个角色训练我的模型,然后再组合角色以获得完整的标签表示。或者我应该直接参加全速训练 我知道我需要传递给模型,对应图像的图像+标签,这些标签的格式是什么,是文本文件,我对这部分有点困惑,所以任何关于传递给模型的标签格式的解释都会有帮助吗?我很感激,谢谢。有几种方法可以解决这个问题(下面的列表并不详尽) 1) 第一种是

我是Tensorflow的新手,我正在尝试建立一个能够对我的图像执行OCR的模型。我必须阅读9个字符(在所有图像中固定)、数字和字母。我的模型与此类似

我的问题是,我是否应该先针对每个角色训练我的模型,然后再组合角色以获得完整的标签表示。或者我应该直接参加全速训练


我知道我需要传递给模型,对应图像的图像+标签,这些标签的格式是什么,是文本文件,我对这部分有点困惑,所以任何关于传递给模型的标签格式的解释都会有帮助吗?我很感激,谢谢。

有几种方法可以解决这个问题(下面的列表并不详尽)

1) 第一种是直接从图像中进行单词分类。如果你的9个字符的词汇量有限,你可以训练一个特定于单词的分类器。然后,您可以将该分类器与图像卷积,并选择概率最高的单词

2) 第二种选择是训练一个字符分类器,找到图像中的所有字符,并找到最有可能包含9个字符的行

3) 第三种选择是训练文本检测器,找到所有可能的文本框。然后,使用基于序列的模型阅读所有文本框,并选择符合约束条件的最可能的解决方案。本文介绍了一个简单的基于序列的模型:。其他基于序列的模型可以基于HMMs、连接主义时间分类、基于注意的模型等

4) 第四个选项是基于注意力的模型,它们端到端地工作,首先查找文本,然后逐个输出字符


请注意,此列表并非详尽无遗,可以有许多不同的方法来解决此问题。其他选项甚至可以使用第三方解决方案,如Abbyy或Tesseract来帮助解决您的问题。

我建议您注意培训端到端OCR模型。你可以试试我们用来抄写街道名称的注意力OCR


我想这对你的案子应该很有效。有关如何准备数据的说明,请参阅答案。

我建议对所有标签进行培训。这是最干净的解决方案。如果失败了,那么你可以尝试不同的方法。通常传入一个热编码向量作为标签。例如,对于猫和狗,您可以将标签cat表示为
[1,0]
,将狗表示为
[0,1]
。好的,谢谢,我如何传递示例标签“17C31T2F”?大小为32px x 32px的手写符号可能会让您感兴趣。谢谢,1、2和4有任何示例可用。根据您的意见,哪种方式最好,哪种方式最容易使用,以及为什么?感谢Alexander的回复,我将尝试按照您建议的方式进行操作。嗨,Alexander,您认为注意力ocr模型对车牌有效吗?例如,车牌是这样的:假设我们有足够的数据进行训练,你知道模型可以达到的近似精度是多少吗?谢谢。@thug_u你试过注意力ocr了吗?对你有用吗?谢谢。嗨,鲍勃,不幸的是我自己没办法做到。对于那个项目,我们使用了不同的ocr解决方案,它不使用人工智能。