Tensorflow 深入学习基本思想

Tensorflow 深入学习基本思想,tensorflow,machine-learning,deeplearning4j,Tensorflow,Machine Learning,Deeplearning4j,我试图理解深度学习的基础知识,最后通过deeplearning4j阅读一点。然而,我并没有真正找到答案:培训绩效如何随着培训数据量的增加而增加 显然,成本函数总是依赖于所有的训练数据,因为它只是对每个输入的平方误差求和。因此,我想在每个优化步骤中,都必须考虑所有数据点。我的意思是deeplearning4j有数据集迭代器和INDArray,数据可以在其中的任何地方存在,因此(我认为)不会限制训练数据的数量。然而,这不意味着训练数据量与梯度下降中每一步的计算时间直接相关吗?DL4J使用迭代器。Ke

我试图理解深度学习的基础知识,最后通过deeplearning4j阅读一点。然而,我并没有真正找到答案:培训绩效如何随着培训数据量的增加而增加


显然,成本函数总是依赖于所有的训练数据,因为它只是对每个输入的平方误差求和。因此,我想在每个优化步骤中,都必须考虑所有数据点。我的意思是deeplearning4j有数据集迭代器和INDArray,数据可以在其中的任何地方存在,因此(我认为)不会限制训练数据的数量。然而,这不意味着训练数据量与梯度下降中每一步的计算时间直接相关吗?

DL4J使用迭代器。Keras使用发电机。仍然是相同的想法-您的数据成批提供,并用于SGD。因此,小批量很重要,而不是你拥有的全部数据量。

从根本上说,这并不重要(尽管你的里程数可能会有所不同)。您必须为您的问题研究正确的体系结构。添加新的数据记录可能会引入一些新功能,这些功能在当前体系结构中可能很难捕获。我总是很有把握地质疑我的网络容量。重新训练模型并检查指标是否下降。

这是否意味着随机梯度下降总是只考虑整个数据的子集(批次)?算法如何确保其权重适合所有训练数据?是否只是重复,直到所有批次都适合?这些是时代吗?这几乎就是SGD的定义:)迭代算法,它通过小批量滚动并通过epochI迭代调整权重。我投票结束这个问题,因为它可能更适合