Deep learning VGG19如何将64个通道加倍到128个通道

Deep learning VGG19如何将64个通道加倍到128个通道,deep-learning,neural-network,conv-neural-network,vgg-net,Deep Learning,Neural Network,Conv Neural Network,Vgg Net,在VGG19中,第一个conv层之后的通道数为64,然后变为128。我猜128个通道都来自33个内核。64个通道中的每个通道都被卷积两次(因此使用两个33个内核),从而产生2个通道,这是真的吗?(因此我们总共得到2*64=128个频道。)你的意思可能是3x3,而不是33。这是RGB图像的卷积过程 如果您的图像的体积(高度、宽度、通道)为(200、200、3),并且64个过滤器为3x3,则每个过滤器的形状必须为(3、3、3),以卷积(200、200、3)通道必须匹配,因为它们将按元素相乘,然后最终

在VGG19中,第一个conv层之后的通道数为64,然后变为128。我猜128个通道都来自33个内核。64个通道中的每个通道都被卷积两次(因此使用两个33个内核),从而产生2个通道,这是真的吗?(因此我们总共得到2*64=128个频道。)

你的意思可能是
3x3
,而不是
33
。这是RGB图像的卷积过程

如果您的图像的体积(高度、宽度、通道)为
(200、200、3)
,并且
64个过滤器为3x3
,则每个过滤器的形状必须为
(3、3、3)
,以卷积
(200、200、3)
通道必须匹配,因为它们将按元素相乘,然后最终添加所有结果。

为了在卷积后保持体积的高度和宽度,应用了填充。将
(1,1)
填充应用到
(200,200,3)
会产生
(202,202,3)
的新体积形状

(202,202,3)
上卷积单个滤波器
(3,3)
的输出是
(200,200,1)
。然后添加一个偏差,通过广播将其变成
(200,200,1)
的形状,该偏差与输出音量相加仍然导致
(200,200,1)

接下来,如果形状(3,3,3)的
64个过滤器与填充输入
(202,202,3)
进行卷积,则输出结果为形状
(200,200,64)
。每个
(200,200,1)
由于卷积而产生的输出量是
按通道堆叠的
,从而产生
(200,200,64)
。然后应用偏差、非线性等

同样适用于128个滤波器,以获得128个通道输出, 如果填充输入音量为
(202、202、64)
,且
过滤器大小为3x3
,则要卷积其形状必须为
(3、3、64)
。这种卷积的结果是维数
(2002001)

对(3,3,64)的
128个过滤器执行相同操作
会导致输出体积形状
(200,200,128)
此方式将频道设置为所需的过滤器数量。

假设所有跨距均为
1
1x1
卷积也可以提供所需数量的输出通道

这里用公式更清楚地解释了这些, 第68页关于体积卷积的内容

体积上的卷积

卷积公式

VGG架构