Machine learning 什么是;学习率热身”;什么意思?

Machine learning 什么是;学习率热身”;什么意思?,machine-learning,neural-network,deep-learning,terminology,Machine Learning,Neural Network,Deep Learning,Terminology,在机器学习,特别是深度学习中,热身意味着什么 我有时听说在一些模型中,热身是训练的一个阶段。但老实说,我不知道它是什么,因为我对ML非常陌生。直到现在我还从未使用过或遇到过它,但我想知道它,因为我认为它可能对我有用 什么是学习率热身?我们什么时候需要它?这意味着,如果您将学习率指定为2e-5,那么在培训期间,学习率将在最初的10000个步骤内从大约0线性增加到2e-5。如果您的数据集差异很大,你可能会遭受一种“过早过度适应”的痛苦。如果你的无序数据碰巧包含一组相关的、功能强大的观察结果,那么你的

在机器学习,特别是深度学习中,热身意味着什么

我有时听说在一些模型中,热身是训练的一个阶段。但老实说,我不知道它是什么,因为我对ML非常陌生。直到现在我还从未使用过或遇到过它,但我想知道它,因为我认为它可能对我有用


什么是学习率热身?我们什么时候需要它?

这意味着,如果您将学习率指定为2e-5,那么在培训期间,学习率将在最初的10000个步骤内从大约0线性增加到2e-5。

如果您的数据集差异很大,你可能会遭受一种“过早过度适应”的痛苦。如果你的无序数据碰巧包含一组相关的、功能强大的观察结果,那么你的模型的初始训练可能会严重偏向这些特征——或者更糟糕的是,偏向与主题根本不相关的附带特征

热身是一种降低早期训练示例首要效应的方法。如果没有它,您可能需要运行一些额外的纪元来获得所需的收敛性,因为该模型不训练那些早期的迷信

许多型号将其作为命令行选项提供。在热身期间,学习率呈线性增加。如果目标学习率为
p
,预热期为
n
,则第一批迭代使用
1*p/n
作为其学习率;第二个使用
2*p/n
,依此类推:迭代
i
使用
i*p/n
,直到我们在迭代
n
时达到标称速率

这意味着第一次迭代仅获得1/n的首要效应。这在平衡这种影响方面做了合理的工作


请注意,爬升通常在一个历元的数量级上,但对于特别倾斜的数据,爬升有时更长,对于更均匀的分布,爬升则更短。您可能需要进行调整,这取决于将洗牌算法应用于训练集时批次在功能上的极端程度。

实际上有两种预热策略,参考

  • 常数:在最初的几个步骤中,使用比基本学习率低的学习率
  • 渐进式:在前几个步骤中,学习率设置为低于基本学习率,并随着步骤数的增加逐渐增加以接近基本学习率。正如帕特尔所建议的那样