Image processing 为什么在CNN的后期步骤中通常有多个完全连接的层?

Image processing 为什么在CNN的后期步骤中通常有多个完全连接的层?,image-processing,machine-learning,computer-vision,deep-learning,conv-neural-network,Image Processing,Machine Learning,Computer Vision,Deep Learning,Conv Neural Network,正如我所注意到的,在卷积神经网络的许多流行架构(例如AlexNet)中,人们使用多个几乎相同维度的完全连接层来收集对早期层中先前检测到的特征的响应 为什么我们不使用一个FC来实现这一点?为什么全连接层的这种层次结构可能更有用 事实上,它不再流行/正常。2015+网络(如Resnet,Inception 4)使用全球平均池(GAP)作为最后一层+softmax,这提供了相同的性能和较小的马赫数模型。VGG16中的最后两层约占网络中所有参数的80%。但是为了回答你的问题,它通常使用2层MLP进行分类

正如我所注意到的,在卷积神经网络的许多流行架构(例如AlexNet)中,人们使用多个几乎相同维度的完全连接层来收集对早期层中先前检测到的特征的响应

为什么我们不使用一个FC来实现这一点?为什么全连接层的这种层次结构可能更有用


事实上,它不再流行/正常。2015+网络(如Resnet,Inception 4)使用全球平均池(GAP)作为最后一层+softmax,这提供了相同的性能和较小的马赫数模型。VGG16中的最后两层约占网络中所有参数的80%。但是为了回答你的问题,它通常使用2层MLP进行分类,并考虑其余的网络是特征生成。1层为正态逻辑回归,具有全局最小值和简单属性,2层具有非线性和SGD的使用

因为有些函数,例如XOR,不能由单个层建模。在这种类型的架构中,卷积层计算局部特征,然后完全连接的输出层将这些局部特征组合起来以导出最终输出。。因此,你可以把完全连接的层看作是一个半独立的映射到输出的映射,如果这是一个复杂的映射,那么你可能需要多个层的表达能力。当然,cybenko定理是成立的,它告诉我们,一个隐藏层就足够了,但就像深度学习中的所有地方一样,你想用网络深度(更高)换取更好的机会,以获得更好的学习层。有很多工作要解释,为什么这应该更好。一个常见的例子是奇偶函数的学习能力,其中更多的层工作得更好。卷积层提取特征,然后完全连接的层组合特征以对输出进行建模。但完全连接层的数量越高,神经网络就越复杂和强大,但过度拟合的风险就越高。注意:1个完全连接的层有2N个神经元,与两个层有N个神经元的模型不一样。有任何研究支持你的最后两句话吗?