Python 图像中特定于TensorFlow的数字识别（类似SVHN）_Python_Tensorflow_Deep Learning_Text Recognition

Python 图像中特定于TensorFlow的数字识别（类似SVHN）

python tensorflow deep-learning

Python 图像中特定于TensorFlow的数字识别（类似SVHN）,python,tensorflow,deep-learning,text-recognition,Python,Tensorflow,Deep Learning,Text Recognition,我正在尝试使用TensorFlow构建一个分类器，以便在神经网络中识别文本的特定部分。我受到SVHN项目的启发，在足球图片中识别时钟。在整个项目中，我只关注时钟。我添加了一张图片，以便更明确地说明我的项目我做的第一件事就是24小时不停地裁剪图片并预测数字（例如，可能是3或4个数字9:38或11:34）。它工作得很好，我有一个很好的准确性（>90%的测试集）与20k图片为我的训练集现在我想做一些更复杂的事情，我认为神经网络应该能够做到，但我不确定。因此，我没有精确地裁剪时钟，但我裁剪了整个记分

我正在尝试使用TensorFlow构建一个分类器，以便在神经网络中识别文本的特定部分。我受到SVHN项目的启发，在足球图片中识别时钟。在整个项目中，我只关注时钟。我添加了一张图片，以便更明确地说明我的项目

我做的第一件事就是24小时不停地裁剪图片并预测数字（例如，可能是3或4个数字9:38或11:34）。它工作得很好，我有一个很好的准确性（>90%的测试集）与20k图片为我的训练集

现在我想做一些更复杂的事情，我认为神经网络应该能够做到，但我不确定。因此，我没有精确地裁剪时钟，但我裁剪了整个记分板（包括球队名称等），我仍然希望预测时钟。
我试着用20k和40k的图片进行训练。在这两种情况下，我在测试集上只有70%的准确性。时钟在图片中大致始终处于同一位置（记分牌顶部）

我不明白为什么准确率这么低。如果有人有线索，那会很有帮助。非常感谢你的帮助

规格：

图像大小：32x32
标签数量：11（0-9+空白）
型号：
7层有线电视新闻网。
C1：卷积层，批次尺寸x28x28x16，卷积尺寸：5x5x1x116
S2：子取样层，批量×14×14×16
C3：卷积层，批量大小x 10 x 10 x 32，卷积大小：5 x 5 x 16 x 32
S4：子取样层，批次尺寸x 5 x 5 x 32
C5：卷积层，批量大小x1x1x64，卷积大小：5x5x32x64
辍学
F6：完全连接层，重量尺寸：64 x 16

输出层，重量大小：16 x 11

您应该裁剪时钟以获得更好的结果。。。没有其他方法可以达到更好的精度，将其作为网络的输入我使用了滑动窗口滑动窗口的大小是多少。。。滑动窗口的步幅是多少？？你是否缩放滑动窗口，使时钟适合滑动窗口。。。你有没有检查时钟的数字是否适合滑动窗口。。。