Machine learning 神经网络迭代、梯度下降步骤、历元、批量大小的含义是什么?

Machine learning 神经网络迭代、梯度下降步骤、历元、批量大小的含义是什么?,machine-learning,neural-network,gradient-descent,Machine Learning,Neural Network,Gradient Descent,你能解释一下下面的单词吗,它真的把我弄糊涂了。 1.迭代 2.梯度下降步骤 3.新纪元 4.批量大小 在神经网络术语中: 一次历元=所有训练示例的一次向前传球和一次向后传球 批量大小=一次向前/向后传递中的训练示例数。批处理大小越大,所需的内存空间就越多 迭代次数=通过次数,每次通过使用[batch size]示例数。需要明确的是,一次传球=一次向前传球+一次向后传球(我们不将向前传球和向后传球视为两次不同的传球) 示例:如果您有1000个培训示例,并且批处理大小为500,则需要2次迭代才能

你能解释一下下面的单词吗,它真的把我弄糊涂了。 1.迭代 2.梯度下降步骤 3.新纪元
4.批量大小

在神经网络术语中:

  • 一次历元=所有训练示例的一次向前传球和一次向后传球
  • 批量大小=一次向前/向后传递中的训练示例数。批处理大小越大,所需的内存空间就越多
  • 迭代次数=通过次数,每次通过使用[batch size]示例数。需要明确的是,一次传球=一次向前传球+一次向后传球(我们不将向前传球和向后传球视为两次不同的传球)
示例:如果您有1000个培训示例,并且批处理大小为500,则需要2次迭代才能完成1个历元

梯度下降

请观看本次讲座: (来源:安得烈NG,Coursera)

让我们看看梯度下降是怎么做的。想象一下这就像一个长满青草的公园,有两座山,我想让我们想象一下,你站在山上的那个点上,在你公园里的这个红色小山上。

事实证明,如果你站在山上的那个点上,你环顾四周,你会发现最好的方向是向山下走一小步,大致就是这个方向。

好的,现在你在你的山上的这个新的点上。你会再次环顾四周,说我应该朝哪个方向走,以便在下坡时迈出一小步?如果你这样做,再迈出一步,你就朝着这个方向迈出了一步

然后你继续前进。从这个新的角度,你环顾四周,决定什么方向会让你最快地走下坡路。再走一步,再走一步,依此类推,直到你们在这里收敛到这个局部极小值

在梯度下降中,我们要做的是旋转360度,环顾四周,然后问,如果我朝某个方向迈出一小步,我想尽快下山,我该朝哪个方向迈出这小步?如果我想下山,那么我想尽快从山上走下来


我希望你们现在明白了梯度下降步骤的重要性。希望这是有帮助的

除了Sayali的精彩回答,以下是:

  • 示例:数据集的一个元素。示例:一个图像是中的一个示例 卷积网络。示例:一个音频文件是一个音频文件的示例 语音识别模型
  • 批次:一组N个样本。对一批样品进行处理 独立地,并行地。如果是培训,一个批次只会产生一个 更新到模型。一批通常近似于分布 比单个输入更好的输入数据。批量越大, 近似值越高;然而,同样正确的是 批处理将花费更长的时间,并且仍然只会产生一个 更新。对于推断(评估/预测),建议选择 一个批量大小尽可能大,您可以负担得起,而无需退出 内存(因为较大的批处理通常会导致更快的 评估/预测)
  • 纪元:一种任意的截止,通常定义为“一次通过一个 “整个数据集”,用于将培训分为不同的阶段, 这对于日志记录和定期评估非常有用

  • 你可以谨慎地把这些表面图给Andrew Ng和他的CurSera机器学习课程。否则,很好的答案。是的,来自安得烈NG课程。这是理解这个算法的最好方法:)我同意,但你仍然应该在它应得的地方给予赞扬。人们可能会认为这些阴谋是你自己策划的。请记住,对于堆栈溢出,我们支持知识共享的理念,因此需要归属。不管怎样,我都投了赞成票。我编辑了这个答案。谢谢你的建议。现在,我肯定会为每个答案添加参考:)一点问题也没有。欢迎来到Stack Overflow顺便说一句,祝你好运!