Neural network 在著名的卷积神经网络示例中，无法计算合并和子采样后的维数_Neural Network_Object Recognition_Pooling_Deep Learning_Subsampling

Neural network 在著名的卷积神经网络示例中，无法计算合并和子采样后的维数

neural-network deep-learning

Neural network 在著名的卷积神经网络示例中，无法计算合并和子采样后的维数,neural-network,object-recognition,pooling,deep-learning,subsampling,Neural Network,Object Recognition,Pooling,Deep Learning,Subsampling,上图来自Yann LeCun的pdf，标题为“感知和推理的层次模型” 我无法理解第2层是如何使用14X14功能映射的？带10X10池和5X5子采样的75X75矩阵如何给出14X14矩阵？如果您参考LeCun等人的话。相同的网络用于较大的输入（143x143灰度图像）：第一级有64个大小为9x9的滤波器，然后是一个带有 5x5步幅，10x10平均窗口。[……] 这提供了正确的维度： output size = (input size - window size) / step + 1

上图来自Yann LeCun的pdf，标题为“感知和推理的层次模型”

我无法理解第2层是如何使用14X14功能映射的？带10X10池和5X5子采样的75X75矩阵如何给出14X14矩阵？

如果您参考LeCun等人的话。相同的网络用于较大的输入（143x143灰度图像）：

第一级有64个大小为9x9的滤波器，然后是一个带有 5x5步幅，10x10平均窗口。[……]

这提供了正确的维度：

output size = (input size - window size) / step + 1
            = (75-10) / 5 + 1
            = 14

如果您参考LeCun等人所述。相同的网络用于较大的输入（143x143灰度图像）：

第一级有64个大小为9x9的滤波器，然后是一个带有 5x5步幅，10x10平均窗口。[……]

这提供了正确的维度：

output size = (input size - window size) / step + 1
            = (75-10) / 5 + 1
            = 14

对不起，我从那份报纸上得不到什么。但是如果您能帮助我，让我知道在75X75矩阵上应用10X10池时矩阵的大小。这里有两个参数：1/窗口大小，也称为内核大小（=10）2/步长，也称为步长（=5）。默认步幅为1时，75x75矩阵上的10x10池给出

75-10+1=66

，因此输出矩阵为66x66。步幅为5时，输出矩阵为14x14（见上文）。例如，请参考Torch。嘿，非常感谢@deltheil提供的简单完整的回复：）。我现在明白了。但正如雨果·拉罗谢尔（Hugo Larochelle）在youtube上的深度学习视频所提到的，二次抽样是一种没有重叠的集合。我只是想确认上图中提到的子采样（5X5）是一个步长（step）值，而不是先应用步长1的池（10X10），然后再进行子采样（5X5）以减小大小。嗨，@delthel你能告诉我为什么64个内核（从输入到层1）吗生成64个要素图，而4096个内核（第2层到第3层）生成256个要素图？谢谢对不起，我从那份报纸上得不到什么。但是如果您能帮助我，让我知道在75X75矩阵上应用10X10池时矩阵的大小。这里有两个参数：1/窗口大小，也称为内核大小（=10）2/步长，也称为步长（=5）。默认步幅为1时，75x75矩阵上的10x10池给出

75-10+1=66

，因此输出矩阵为66x66。步幅为5时，输出矩阵为14x14（见上文）。例如，请参考Torch。嘿，非常感谢@deltheil提供的简单完整的回复：）。我现在明白了。但正如雨果·拉罗谢尔（Hugo Larochelle）在youtube上的深度学习视频所提到的，二次抽样是一种没有重叠的集合。我只是想确认上图中提到的子采样（5X5）是一个步长（step）值，而不是先应用步长1的池（10X10），然后再进行子采样（5X5）以减小大小。嗨，@delthel你能告诉我为什么64个内核（从输入到层1）吗生成64个要素图，而4096个内核（第2层到第3层）生成256个要素图？谢谢您知道为什么64个内核（从输入到第1层）生成64个功能映射，而4096个内核（从第2层到第3层）生成256个功能映射吗？您知道为什么64个内核（从输入到第1层）生成64个功能映射，而4096个内核（从第2层到第3层）生成256个功能映射吗？