Image processing 卷积层对分割任务的作用有多大?
我正在阅读Jonathan Long*、Evan Shelhamer*和Trevor Darrell撰写的论文《用于语义切分的完全卷积网络》,CVPR 2015和PAMI 2016 我想了解为什么它可以用于语义分割。让我们看看fcn-32s体系结构,它包括两个阶段:特征提取(conv1-1->pool5)和特征分类(fc6->score\U fr)。与正常分类网络相比,主要区别在于第二阶段。FCN-32s将fc7中的完全连接层替换为完全卷积层(1 x 1),以保留空间地图(如本文图2中的标题)。因此,我对这一点感到困惑:Image processing 卷积层对分割任务的作用有多大?,image-processing,computer-vision,deep-learning,caffe,image-segmentation,Image Processing,Computer Vision,Deep Learning,Caffe,Image Segmentation,我正在阅读Jonathan Long*、Evan Shelhamer*和Trevor Darrell撰写的论文《用于语义切分的完全卷积网络》,CVPR 2015和PAMI 2016 我想了解为什么它可以用于语义分割。让我们看看fcn-32s体系结构,它包括两个阶段:特征提取(conv1-1->pool5)和特征分类(fc6->score\U fr)。与正常分类网络相比,主要区别在于第二阶段。FCN-32s将fc7中的完全连接层替换为完全卷积层(1 x 1),以保留空间地图(如本文图2中的标题)。
如果你看一下数学,
“卷积”层和“内部产品”(也称为“完全连接”)层基本上非常相似:它们在各自的感受野上执行线性操作。唯一的区别是,“InnerProduct”
将整个输入作为其“接收域”,而“卷积”
层只查看输入中的内核大小
窗口
如果输入大小更改,会发生什么情况?
“卷积”
层不能不关心,它只是输出具有与新输入形状对应的空间尺寸的特征地图。
另一方面,“InnerProduct”
层失败,因为它拥有的权重数量与接收野的新大小不匹配
将模型中的顶部完全连接的层替换为“卷积”
层允许对图像进行“滑动窗口”分类:从而实现粗略的语义分割-每像素标记,而不是每图像标记
输入标度和输出标签的粗略标度之间的标度差距仍然是一个大问题,但是有“反褶积”
层来弥补这个差距。你能提供更多信息/上下文吗,这样读者就不必自己搜索了?就目前情况而言,在我看来,只有那些曾经读过这篇文章并且还记得的人才会回答这个问题。谢谢javaLover。我欢迎你。我有时想问这样的问题。在这个主题上,这篇文章看起来像是一个很大的段落(没有那么吸引人)。你可以发布纸质链接吗?它还引用了诸如“FCN-32s”、“pool5”和“卷积层”之类的行话(?)。我不知道哪一个是这个地区的常用词。如果有些人不是,请提供他们的用途/意思可能是个好主意。:)@javaLover在使用pool5
和FCN-32s
时没有问题。对于那些有理由“投入”的人来说,这些词实际上意味着一些东西。谢谢Shai。我展示了每一层的形状:fc6:(1,4096,16,16),fc7:(1,4096,16,16),score\u fr:(1,21,16,16)
其中fc6
使用内核大小7
,fc7
和score\u fr
使用内核大小1
。fc7
具有4096
特征图,score\u fr
具有21
(类数)。据我所知,fc6
的49(7x7)输入连接到fc7
中的输出。而在fc7
中只有一个输入连接到score\u fr
中的一个输出,因为内核大小:1。是这样吗?此外,卷积层的权重是随机初始化的,比如高斯核,那么权重是如何学习的呢?所有模型的权重都是从初始到随机的,这是一个训练过程,它将随机权重调整为有用的@user8264。这意味着最后两个卷积将随机初始化,然后在下一次迭代后进行微调。还是从1到7的所有卷积?@user8264我对训练的细节不太熟悉FCN-32s
。谢谢Shai。我认为所有卷积层中的所有重量都是在训练期间调整的。感谢您的宝贵意见。