Python 光学字符识别的张量流模型_Python_Tensorflow_Deep Learning_Mnist

Python 光学字符识别的张量流模型

python tensorflow deep-learning

Python 光学字符识别的张量流模型,python,tensorflow,deep-learning,mnist,Python,Tensorflow,Deep Learning,Mnist,我是Tensorflow的新手，我正在尝试建立一个能够对我的图像执行OCR的模型。我必须阅读9个字符（在所有图像中固定）、数字和字母。我的模型与此类似我的问题是，我是否应该先针对每个角色训练我的模型，然后再组合角色以获得完整的标签表示。或者我应该直接参加全速训练我知道我需要传递给模型，对应图像的图像+标签，这些标签的格式是什么，是文本文件，我对这部分有点困惑，所以任何关于传递给模型的标签格式的解释都会有帮助吗？我很感激，谢谢。有几种方法可以解决这个问题（下面的列表并不详尽） 1）第一种是

我是Tensorflow的新手，我正在尝试建立一个能够对我的图像执行OCR的模型。我必须阅读9个字符（在所有图像中固定）、数字和字母。我的模型与此类似

我的问题是，我是否应该先针对每个角色训练我的模型，然后再组合角色以获得完整的标签表示。或者我应该直接参加全速训练

我知道我需要传递给模型，对应图像的图像+标签，这些标签的格式是什么，是文本文件，我对这部分有点困惑，所以任何关于传递给模型的标签格式的解释都会有帮助吗？我很感激，谢谢。

有几种方法可以解决这个问题（下面的列表并不详尽）

1）第一种是直接从图像中进行单词分类。如果你的9个字符的词汇量有限，你可以训练一个特定于单词的分类器。然后，您可以将该分类器与图像卷积，并选择概率最高的单词

2）第二种选择是训练一个字符分类器，找到图像中的所有字符，并找到最有可能包含9个字符的行

3）第三种选择是训练文本检测器，找到所有可能的文本框。然后，使用基于序列的模型阅读所有文本框，并选择符合约束条件的最可能的解决方案。本文介绍了一个简单的基于序列的模型：。其他基于序列的模型可以基于HMMs、连接主义时间分类、基于注意的模型等

4）第四个选项是基于注意力的模型，它们端到端地工作，首先查找文本，然后逐个输出字符

请注意，此列表并非详尽无遗，可以有许多不同的方法来解决此问题。其他选项甚至可以使用第三方解决方案，如Abbyy或Tesseract来帮助解决您的问题。

我建议您注意培训端到端OCR模型。你可以试试我们用来抄写街道名称的注意力OCR

我想这对你的案子应该很有效。有关如何准备数据的说明，请参阅答案。

我建议对所有标签进行培训。这是最干净的解决方案。如果失败了，那么你可以尝试不同的方法。通常传入一个热编码向量作为标签。例如，对于猫和狗，您可以将标签cat表示为

[1,0]

，将狗表示为

[0,1]

。好的，谢谢，我如何传递示例标签“17C31T2F”？大小为32px x 32px的手写符号可能会让您感兴趣。谢谢，1、2和4有任何示例可用。根据您的意见，哪种方式最好，哪种方式最容易使用，以及为什么？感谢Alexander的回复，我将尝试按照您建议的方式进行操作。嗨，Alexander，您认为注意力ocr模型对车牌有效吗？例如，车牌是这样的：假设我们有足够的数据进行训练，你知道模型可以达到的近似精度是多少吗？谢谢。@thug_u你试过注意力ocr了吗？对你有用吗？谢谢。嗨，鲍勃，不幸的是我自己没办法做到。对于那个项目，我们使用了不同的ocr解决方案，它不使用人工智能。