Machine learning 为什么要对卷积神经网络进行预训练

Machine learning 为什么要对卷积神经网络进行预训练,machine-learning,computer-vision,neural-network,Machine Learning,Computer Vision,Neural Network,通常,反向传播神经网络存在梯度消失的问题。 我发现卷积神经网络(CNN)是如何摆脱这种消失梯度问题的(为什么?) 在一些论文中,也讨论了CNN的一些预训练方法。 有人能给我解释一下吗 (1) the resons for pretraining in CNN and (2) what are the problems/limitations with CNN? (3) any relavent papers talking about the limitation of

通常,反向传播神经网络存在梯度消失的问题。 我发现卷积神经网络(CNN)是如何摆脱这种消失梯度问题的(为什么?)

在一些论文中,也讨论了CNN的一些预训练方法。 有人能给我解释一下吗

    (1) the resons for pretraining in CNN and 
    (2) what are the problems/limitations with CNN?
    (3) any relavent papers talking about the limitation of CNN?
提前谢谢

  • 预训练是一种规则化技术。它提高了模型的泛化精度。由于网络暴露于大量数据(我们在许多TAK中有大量无监督数据),权重参数被带到更可能代表总体数据分布的空间,而不是过度拟合底层数据分布的特定子集。神经网络,尤其是那些具有大量隐藏单元的高模型表示能力的网络,往往会过度拟合数据,并且容易受到随机参数初始化的影响。此外,由于初始层以有监督的方式正确初始化,梯度稀释问题不再那么严重。这就是为什么预训练被用作监督任务的初始步骤,通常使用梯度下降算法执行监督任务

  • CNN与其他神经网络有着相同的命运。参数太多,无法调整;最佳输入面片大小、隐藏层数量、每层的特征贴图数量、池和步幅大小、标准化窗口、学习率等。因此,与其他ML技术相比,模型选择问题相对困难。大型网络的培训要么在GPU上进行,要么在CPU集群上进行

  • 预训练是一种规则化技术。它提高了模型的泛化精度。由于网络暴露于大量数据(我们在许多TAK中有大量无监督数据),权重参数被带到更可能代表总体数据分布的空间,而不是过度拟合底层数据分布的特定子集。神经网络,尤其是那些具有大量隐藏单元的高模型表示能力的网络,往往会过度拟合数据,并且容易受到随机参数初始化的影响。此外,由于初始层以有监督的方式正确初始化,梯度稀释问题不再那么严重。这就是为什么预训练被用作监督任务的初始步骤,通常使用梯度下降算法执行监督任务

  • CNN与其他神经网络有着相同的命运。参数太多,无法调整;最佳输入面片大小、隐藏层数量、每层的特征贴图数量、池和步幅大小、标准化窗口、学习率等。因此,与其他ML技术相比,模型选择问题相对困难。大型网络的培训要么在GPU上进行,要么在CPU集群上进行

  • 预训练是一种规则化技术。它提高了模型的泛化精度。由于网络暴露于大量数据(我们在许多TAK中有大量无监督数据),权重参数被带到更可能代表总体数据分布的空间,而不是过度拟合底层数据分布的特定子集。神经网络,尤其是那些具有大量隐藏单元的高模型表示能力的网络,往往会过度拟合数据,并且容易受到随机参数初始化的影响。此外,由于初始层以有监督的方式正确初始化,梯度稀释问题不再那么严重。这就是为什么预训练被用作监督任务的初始步骤,通常使用梯度下降算法执行监督任务

  • CNN与其他神经网络有着相同的命运。参数太多,无法调整;最佳输入面片大小、隐藏层数量、每层的特征贴图数量、池和步幅大小、标准化窗口、学习率等。因此,与其他ML技术相比,模型选择问题相对困难。大型网络的培训要么在GPU上进行,要么在CPU集群上进行

  • 预训练是一种规则化技术。它提高了模型的泛化精度。由于网络暴露于大量数据(我们在许多TAK中有大量无监督数据),权重参数被带到更可能代表总体数据分布的空间,而不是过度拟合底层数据分布的特定子集。神经网络,尤其是那些具有大量隐藏单元的高模型表示能力的网络,往往会过度拟合数据,并且容易受到随机参数初始化的影响。此外,由于初始层以有监督的方式正确初始化,梯度稀释问题不再那么严重。这就是为什么预训练被用作监督任务的初始步骤,通常使用梯度下降算法执行监督任务

  • CNN与其他神经网络有着相同的命运。参数太多,无法调整;最佳输入面片大小、隐藏层数量、每层的特征贴图数量、池和步幅大小、标准化窗口、学习率等。因此,与其他ML技术相比,模型选择问题相对困难。大型网络的培训要么在GPU上进行,要么在CPU集群上进行


  • 关于第一点。CNN和其他类型的深度学习方法一样,试图学习许多节点和层,这削弱了反向传播算法的能力。输出节点中10%的误差差可能导致第一层中0.000001%的更新。预训练(无监督方法)不会出现这种问题,可以在使用反向传播进行微调(并将模式与我们期望的输出关联)之前,将网络更新为具有有意义的权重。尝试在交叉验证中查找:仅考虑t