Machine learning 卷积神经网络在二值图像上运行得更快吗_Machine Learning_Deep Learning_Ocr_Convolutional Neural Network_Handwriting Recognition

Machine learning 卷积神经网络在二值图像上运行得更快吗

machine-learning deep-learning

Machine learning 卷积神经网络在二值图像上运行得更快吗,machine-learning,deep-learning,ocr,convolutional-neural-network,handwriting-recognition,Machine Learning,Deep Learning,Ocr,Convolutional Neural Network,Handwriting Recognition,我正在尝试一些DCNN来识别手写单词（单词识别），其中图像是二进制的，我想知道计算时间是否会比在其他灰度或彩色图像中使用DCNN更快此外，如何均衡图像大小，因为规范化单词图像将产生具有不同比例的单词。有什么建议吗？灰度图像的计算速度当然更快，但不是因为零，这只是输入张量的大小。彩色图像是[批次，宽度，高度，3]，而灰度图像是[批次，宽度，高度，1]。深度和空间大小的差异会影响在第一个卷积层上花费的时间，这通常是最耗时的一个。这就是为什么要考虑调整图像的大小。您可能还想阅读有关加速计算的文章

我正在尝试一些DCNN来识别手写单词（单词识别），其中图像是二进制的，我想知道计算时间是否会比在其他灰度或彩色图像中使用DCNN更快

此外，如何均衡图像大小，因为规范化单词图像将产生具有不同比例的单词。

有什么建议吗？

灰度图像的计算速度当然更快，但不是因为零，这只是输入张量的大小。彩色图像是

[批次，宽度，高度，3]

，而灰度图像是

[批次，宽度，高度，1]

。深度和空间大小的差异会影响在第一个卷积层上花费的时间，这通常是最耗时的一个。这就是为什么要考虑调整图像的大小。

您可能还想阅读有关加速计算的文章。通常，当滤波器的数目变得很大时，它被应用在网络的中间。

至于第二个问题（如果我没有弄错的话），最终你必须调整图像的大小。如果图像包含不同字体大小的文本，一种可能的策略是调整大小+填充或裁剪+调整大小。您必须知道每个特定图像上的字体大小，才能选择正确的填充或裁剪大小。这种方法需要（可能）相当多的人工工作

一种完全不同的方法是忽略这些差异，让网络学习OCR，尽管字体大小存在差异。这是一个可行的解决方案，不需要大量的手动预处理，只需要更多的训练数据来避免过度拟合。如果你检查，你会发现数字的大小并不总是相同的，但是CNN很容易达到99.5%的准确率。

我忘了说我在做单词识别。如果我们有两个词是由同一个人写的，第一个是“想象”，另一个是“酒吧”。他们可能有相同的高度，但“想象”的宽度将超过“酒吧”的宽度。将两个图像缩放到64x64将在“Imagination”图像中产生比“Bar”更小的字体。我想把“Bar”的图像填充到“Imagination”的大小上，然后缩放两者。但是，这将使图像“条”有一些空白（许多零）。数据扩充将增加数据大小。