Machine learning 神经网络迭代、梯度下降步骤、历元、批量大小的含义是什么？_Machine Learning_Neural Network_Gradient Descent

Machine learning 神经网络迭代、梯度下降步骤、历元、批量大小的含义是什么？

machine-learning neural-network

Machine learning 神经网络迭代、梯度下降步骤、历元、批量大小的含义是什么？,machine-learning,neural-network,gradient-descent,Machine Learning,Neural Network,Gradient Descent,你能解释一下下面的单词吗，它真的把我弄糊涂了。 1.迭代 2.梯度下降步骤 3.新纪元 4.批量大小在神经网络术语中：一次历元=所有训练示例的一次向前传球和一次向后传球批量大小=一次向前/向后传递中的训练示例数。批处理大小越大，所需的内存空间就越多迭代次数=通过次数，每次通过使用[batch size]示例数。需要明确的是，一次传球=一次向前传球+一次向后传球（我们不将向前传球和向后传球视为两次不同的传球）示例：如果您有1000个培训示例，并且批处理大小为500，则需要2次迭代才能

你能解释一下下面的单词吗，它真的把我弄糊涂了。 1.迭代 2.梯度下降步骤 3.新纪元

4.批量大小

在神经网络术语中：

一次历元=所有训练示例的一次向前传球和一次向后传球
批量大小=一次向前/向后传递中的训练示例数。批处理大小越大，所需的内存空间就越多
迭代次数=通过次数，每次通过使用[batch size]示例数。需要明确的是，一次传球=一次向前传球+一次向后传球（我们不将向前传球和向后传球视为两次不同的传球）

示例：如果您有1000个培训示例，并且批处理大小为500，则需要2次迭代才能完成1个历元

梯度下降：

请观看本次讲座：（来源：安得烈NG，Coursera）

让我们看看梯度下降是怎么做的。想象一下这就像一个长满青草的公园，有两座山，我想让我们想象一下，你站在山上的那个点上，在你公园里的这个红色小山上。

事实证明，如果你站在山上的那个点上，你环顾四周，你会发现最好的方向是向山下走一小步，大致就是这个方向。

好的，现在你在你的山上的这个新的点上。你会再次环顾四周，说我应该朝哪个方向走，以便在下坡时迈出一小步？如果你这样做，再迈出一步，你就朝着这个方向迈出了一步

然后你继续前进。从这个新的角度，你环顾四周，决定什么方向会让你最快地走下坡路。再走一步，再走一步，依此类推，直到你们在这里收敛到这个局部极小值

在梯度下降中，我们要做的是旋转360度，环顾四周，然后问，如果我朝某个方向迈出一小步，我想尽快下山，我该朝哪个方向迈出这小步？如果我想下山，那么我想尽快从山上走下来

我希望你们现在明白了梯度下降步骤的重要性。希望这是有帮助的

除了Sayali的精彩回答，以下是：

示例：数据集的一个元素。示例：一个图像是中的一个示例卷积网络。示例：一个音频文件是一个音频文件的示例语音识别模型

批次：一组N个样本。对一批样品进行处理独立地，并行地。如果是培训，一个批次只会产生一个更新到模型。一批通常近似于分布比单个输入更好的输入数据。批量越大，近似值越高；然而，同样正确的是批处理将花费更长的时间，并且仍然只会产生一个更新。对于推断（评估/预测），建议选择一个批量大小尽可能大，您可以负担得起，而无需退出内存（因为较大的批处理通常会导致更快的评估/预测）

纪元：一种任意的截止，通常定义为“一次通过一个 “整个数据集”，用于将培训分为不同的阶段，这对于日志记录和定期评估非常有用

你可以谨慎地把这些表面图给Andrew Ng和他的CurSera机器学习课程。否则，很好的答案。是的，来自安得烈NG课程。这是理解这个算法的最好方法：）我同意，但你仍然应该在它应得的地方给予赞扬。人们可能会认为这些阴谋是你自己策划的。请记住，对于堆栈溢出，我们支持知识共享的理念，因此需要归属。不管怎样，我都投了赞成票。我编辑了这个答案。谢谢你的建议。现在，我肯定会为每个答案添加参考：）一点问题也没有。欢迎来到Stack Overflow顺便说一句，祝你好运！