Python 图像中特定于TensorFlow的数字识别(类似SVHN)

Python 图像中特定于TensorFlow的数字识别(类似SVHN),python,tensorflow,deep-learning,text-recognition,Python,Tensorflow,Deep Learning,Text Recognition,我正在尝试使用TensorFlow构建一个分类器,以便在神经网络中识别文本的特定部分。我受到SVHN项目的启发,在足球图片中识别时钟。在整个项目中,我只关注时钟。我添加了一张图片,以便更明确地说明我的项目 我做的第一件事就是24小时不停地裁剪图片并预测数字(例如,可能是3或4个数字9:38或11:34)。它工作得很好,我有一个很好的准确性(>90%的测试集)与20k图片为我的训练集 现在我想做一些更复杂的事情,我认为神经网络应该能够做到,但我不确定。因此,我没有精确地裁剪时钟,但我裁剪了整个记分

我正在尝试使用TensorFlow构建一个分类器,以便在神经网络中识别文本的特定部分。我受到SVHN项目的启发,在足球图片中识别时钟。在整个项目中,我只关注时钟。我添加了一张图片,以便更明确地说明我的项目

我做的第一件事就是24小时不停地裁剪图片并预测数字(例如,可能是3或4个数字9:38或11:34)。它工作得很好,我有一个很好的准确性(>90%的测试集)与20k图片为我的训练集

现在我想做一些更复杂的事情,我认为神经网络应该能够做到,但我不确定。因此,我没有精确地裁剪时钟,但我裁剪了整个记分板(包括球队名称等),我仍然希望预测时钟。
我试着用20k和40k的图片进行训练。在这两种情况下,我在测试集上只有70%的准确性。时钟在图片中大致始终处于同一位置(记分牌顶部)

我不明白为什么准确率这么低。如果有人有线索,那会很有帮助。非常感谢你的帮助

规格:

图像大小:32x32
标签数量:11(0-9+空白)
型号:
7层有线电视新闻网。
C1:卷积层,批次尺寸x28x28x16,卷积尺寸:5x5x1x116
S2:子取样层,批量×14×14×16
C3:卷积层,批量大小x 10 x 10 x 32,卷积大小:5 x 5 x 16 x 32
S4:子取样层,批次尺寸x 5 x 5 x 32
C5:卷积层,批量大小x1x1x64,卷积大小:5x5x32x64
辍学
F6:完全连接层,重量尺寸:64 x 16

输出层,重量大小:16 x 11

您应该裁剪时钟以获得更好的结果。。。没有其他方法可以达到更好的精度,将其作为网络的输入我使用了滑动窗口滑动窗口的大小是多少。。。滑动窗口的步幅是多少??你是否缩放滑动窗口,使时钟适合滑动窗口。。。你有没有检查时钟的数字是否适合滑动窗口。。。