Deep learning 为什么（MNIST训练）模型不擅长不在图片中心的数字关于这个问题_Deep Learning_Mnist

Deep learning 为什么（MNIST训练）模型不擅长不在图片中心的数字关于这个问题

deep-learning

Deep learning 为什么（MNIST训练）模型不擅长不在图片中心的数字关于这个问题,deep-learning,mnist,Deep Learning,Mnist,我的CNN模型在MNIST数据集上的准确率高达99.4%。所以我尝试了一些不规则的输入。预测结果不正确以下是我使用的一些不规则输入正如我们所知，CNN卷积将扫描整个图像，也不关心图像中哪些区域的关键特征为什么CNN不能处理不规则输入正如我们所知，CNN卷积将扫描整个图像，也不关心图像中哪些区域的关键特征这完全是错误的。CNN不“扫描”图像，单个过滤器可以被视为扫描，但整个网络没有。CNN由许多层组成，最终将减少信息量，并且在某些点上还使用特定于位置的功能（在最终完全连接的层中，在某

我的CNN模型在MNIST数据集上的准确率高达99.4%。所以我尝试了一些不规则的输入。预测结果不正确

以下是我使用的一些不规则输入

正如我们所知，CNN卷积将扫描整个图像，也不关心图像中哪些区域的关键特征

为什么CNN不能处理不规则输入

正如我们所知，CNN卷积将扫描整个图像，也不关心图像中哪些区域的关键特征

这完全是错误的。CNN不“扫描”图像，单个过滤器可以被视为扫描，但整个网络没有。CNN由许多层组成，最终将减少信息量，并且在某些点上还使用特定于位置的功能（在最终完全连接的层中，在某些全局平均中，等等）。因此，尽管CNN对小的扰动（平移或噪声，但不是旋转！）具有鲁棒性，但它们对这些变换不是不变的。换言之，将图像向左移动3个像素是可以的，但是尝试以完全不同的比例/位置对数字进行分类将失败，因为没有任何东西强迫您的模型保持不变。有些模型确实学习了这种不变性，它们是空间变压器网络，但CNN根本没有。你也用这些不规则的输入进行训练吗？当然没有。我只是想知道CNN可以解决这个图像的翻译，但MNIST对于你们想要做的事情来说太简单了。为了获得这种不变性，训练集需要更多的可变性。我也这么认为。据你所说，是不是在训练模型的时候，模型也是研究数字位置的，我理解的对吗？对不起，堆栈溢出不是一个寻求无目的建议的合适地方。考虑一下帮助中心，知道这里有什么问题，如果我们有一个神经网络F（x）的卷积算子，然后把它应用到f（t（x）），其中t是平移，不会导致相同的结果。如果要添加一些特定的聚集，例如最大，那么实际上最大像素f（x）=最大像素f（T（x））（直到边界效果）。换句话说，它“在整个信号中具有相同的效果”，但“结果的位置”会发生变化。如果一个人只应用卷积运算和全局聚集，并且在一个球体（或其他没有“边界”的流形）上工作，那么通过构造，他将拥有真正的平移不变模型。