Deep learning 为什么(MNIST训练)模型不擅长不在图片中心的数字 关于这个问题

Deep learning 为什么(MNIST训练)模型不擅长不在图片中心的数字 关于这个问题,deep-learning,mnist,Deep Learning,Mnist,我的CNN模型在MNIST数据集上的准确率高达99.4%。所以我尝试了一些不规则的输入。预测结果不正确 以下是我使用的一些不规则输入 正如我们所知,CNN卷积将扫描整个图像,也不关心图像中哪些区域的关键特征 为什么CNN不能处理不规则输入 正如我们所知,CNN卷积将扫描整个图像,也不关心图像中哪些区域的关键特征 这完全是错误的。CNN不“扫描”图像,单个过滤器可以被视为扫描,但整个网络没有。CNN由许多层组成,最终将减少信息量,并且在某些点上还使用特定于位置的功能(在最终完全连接的层中,在某

我的CNN模型在MNIST数据集上的准确率高达99.4%。所以我尝试了一些不规则的输入。预测结果不正确

以下是我使用的一些不规则输入

正如我们所知,CNN卷积将扫描整个图像,也不关心图像中哪些区域的关键特征

为什么CNN不能处理不规则输入

正如我们所知,CNN卷积将扫描整个图像,也不关心图像中哪些区域的关键特征


这完全是错误的。CNN不“扫描”图像,单个过滤器可以被视为扫描,但整个网络没有。CNN由许多层组成,最终将减少信息量,并且在某些点上还使用特定于位置的功能(在最终完全连接的层中,在某些全局平均中,等等)。因此,尽管CNN对小的扰动(平移或噪声,但不是旋转!)具有鲁棒性,但它们对这些变换不是不变的。换言之,将图像向左移动3个像素是可以的,但是尝试以完全不同的比例/位置对数字进行分类将失败,因为没有任何东西强迫您的模型保持不变。有些模型确实学习了这种不变性,它们是空间变压器网络,但CNN根本没有。你也用这些不规则的输入进行训练吗?当然没有。我只是想知道CNN可以解决这个图像的翻译,但MNIST对于你们想要做的事情来说太简单了。为了获得这种不变性,训练集需要更多的可变性。我也这么认为。据你所说,是不是在训练模型的时候,模型也是研究数字位置的,我理解的对吗?对不起,堆栈溢出不是一个寻求无目的建议的合适地方。考虑一下帮助中心,知道这里有什么问题,如果我们有一个神经网络F(x)的卷积算子,然后把它应用到f(t(x)),其中t是平移,不会导致相同的结果。如果要添加一些特定的聚集,例如最大,那么实际上最大像素f(x)=最大像素f(T(x))(直到边界效果)。换句话说,它“在整个信号中具有相同的效果”,但“结果的位置”会发生变化。如果一个人只应用卷积运算和全局聚集,并且在一个球体(或其他没有“边界”的流形)上工作,那么通过构造,他将拥有真正的平移不变模型。