Machine learning 为什么要对卷积神经网络进行预训练_Machine Learning_Computer Vision_Neural Network

Machine learning 为什么要对卷积神经网络进行预训练

machine-learning computer-vision neural-network

Machine learning 为什么要对卷积神经网络进行预训练,machine-learning,computer-vision,neural-network,Machine Learning,Computer Vision,Neural Network,通常，反向传播神经网络存在梯度消失的问题。我发现卷积神经网络（CNN）是如何摆脱这种消失梯度问题的（为什么？）在一些论文中，也讨论了CNN的一些预训练方法。有人能给我解释一下吗 (1) the resons for pretraining in CNN and (2) what are the problems/limitations with CNN? (3) any relavent papers talking about the limitation of

通常，反向传播神经网络存在梯度消失的问题。我发现卷积神经网络（CNN）是如何摆脱这种消失梯度问题的（为什么？）

在一些论文中，也讨论了CNN的一些预训练方法。有人能给我解释一下吗

    (1) the resons for pretraining in CNN and 
    (2) what are the problems/limitations with CNN?
    (3) any relavent papers talking about the limitation of CNN?

提前谢谢

预训练是一种规则化技术。它提高了模型的泛化精度。由于网络暴露于大量数据（我们在许多TAK中有大量无监督数据），权重参数被带到更可能代表总体数据分布的空间，而不是过度拟合底层数据分布的特定子集。神经网络，尤其是那些具有大量隐藏单元的高模型表示能力的网络，往往会过度拟合数据，并且容易受到随机参数初始化的影响。此外，由于初始层以有监督的方式正确初始化，梯度稀释问题不再那么严重。这就是为什么预训练被用作监督任务的初始步骤，通常使用梯度下降算法执行监督任务

CNN与其他神经网络有着相同的命运。参数太多，无法调整；最佳输入面片大小、隐藏层数量、每层的特征贴图数量、池和步幅大小、标准化窗口、学习率等。因此，与其他ML技术相比，模型选择问题相对困难。大型网络的培训要么在GPU上进行，要么在CPU集群上进行

关于第一点。CNN和其他类型的深度学习方法一样，试图学习许多节点和层，这削弱了反向传播算法的能力。输出节点中10%的误差差可能导致第一层中0.000001%的更新。预训练（无监督方法）不会出现这种问题，可以在使用反向传播进行微调（并将模式与我们期望的输出关联）之前，将网络更新为具有有意义的权重。尝试在交叉验证中查找：仅考虑t