Neural network 在著名的卷积神经网络示例中,无法计算合并和子采样后的维数

Neural network 在著名的卷积神经网络示例中,无法计算合并和子采样后的维数,neural-network,object-recognition,pooling,deep-learning,subsampling,Neural Network,Object Recognition,Pooling,Deep Learning,Subsampling,上图来自Yann LeCun的pdf,标题为“感知和推理的层次模型” 我无法理解第2层是如何使用14X14功能映射的? 带10X10池和5X5子采样的75X75矩阵如何给出14X14矩阵?如果您参考LeCun等人的话。相同的网络用于较大的输入(143x143灰度图像): 第一级有64个大小为9x9的滤波器,然后是一个带有 5x5步幅,10x10平均窗口。[……] 这提供了正确的维度: output size = (input size - window size) / step + 1

上图来自Yann LeCun的pdf,标题为“感知和推理的层次模型”

我无法理解第2层是如何使用14X14功能映射的? 带10X10池和5X5子采样的75X75矩阵如何给出14X14矩阵?

如果您参考LeCun等人的话。相同的网络用于较大的输入(143x143灰度图像):

第一级有64个大小为9x9的滤波器,然后是一个带有 5x5步幅,10x10平均窗口。[……]

这提供了正确的维度:

output size = (input size - window size) / step + 1
            = (75-10) / 5 + 1
            = 14
如果您参考LeCun等人所述。相同的网络用于较大的输入(143x143灰度图像):

第一级有64个大小为9x9的滤波器,然后是一个带有 5x5步幅,10x10平均窗口。[……]

这提供了正确的维度:

output size = (input size - window size) / step + 1
            = (75-10) / 5 + 1
            = 14

对不起,我从那份报纸上得不到什么。但是如果您能帮助我,让我知道在75X75矩阵上应用10X10池时矩阵的大小。这里有两个参数:1/窗口大小,也称为内核大小(=10)2/步长,也称为步长(=5)。默认步幅为1时,75x75矩阵上的10x10池给出
75-10+1=66
,因此输出矩阵为66x66。步幅为5时,输出矩阵为14x14(见上文)。例如,请参考Torch。嘿,非常感谢@deltheil提供的简单完整的回复:)。我现在明白了。但正如雨果·拉罗谢尔(Hugo Larochelle)在youtube上的深度学习视频所提到的,二次抽样是一种没有重叠的集合。我只是想确认上图中提到的子采样(5X5)是一个步长(step)值,而不是先应用步长1的池(10X10),然后再进行子采样(5X5)以减小大小。嗨,@delthel你能告诉我为什么64个内核(从输入到层1)吗生成64个要素图,而4096个内核(第2层到第3层)生成256个要素图?谢谢对不起,我从那份报纸上得不到什么。但是如果您能帮助我,让我知道在75X75矩阵上应用10X10池时矩阵的大小。这里有两个参数:1/窗口大小,也称为内核大小(=10)2/步长,也称为步长(=5)。默认步幅为1时,75x75矩阵上的10x10池给出
75-10+1=66
,因此输出矩阵为66x66。步幅为5时,输出矩阵为14x14(见上文)。例如,请参考Torch。嘿,非常感谢@deltheil提供的简单完整的回复:)。我现在明白了。但正如雨果·拉罗谢尔(Hugo Larochelle)在youtube上的深度学习视频所提到的,二次抽样是一种没有重叠的集合。我只是想确认上图中提到的子采样(5X5)是一个步长(step)值,而不是先应用步长1的池(10X10),然后再进行子采样(5X5)以减小大小。嗨,@delthel你能告诉我为什么64个内核(从输入到层1)吗生成64个要素图,而4096个内核(第2层到第3层)生成256个要素图?谢谢您知道为什么64个内核(从输入到第1层)生成64个功能映射,而4096个内核(从第2层到第3层)生成256个功能映射吗?您知道为什么64个内核(从输入到第1层)生成64个功能映射,而4096个内核(从第2层到第3层)生成256个功能映射吗?