Algorithm 预测点nesterov动量梯度计算_Algorithm_Tensorflow_Machine Learning_Neural Network_Gradient Descent

Algorithm 预测点nesterov动量梯度计算

algorithm tensorflow machine-learning neural-network

Algorithm 预测点nesterov动量梯度计算,algorithm,tensorflow,machine-learning,neural-network,gradient-descent,Algorithm,Tensorflow,Machine Learning,Neural Network,Gradient Descent,在nesterov momentum中，误差函数相对于参数的梯度是在与成本计算点不同的点上计算的——也就是说，模型根据其先前的动量向前跳一点，然后计算梯度以用于进一步的计算。我的问题是，如果损失是在当前点计算的，那么当损失未知时，我们如何计算不同点的梯度？我读到，哪种回答了这个问题，但充其量只能提供一个近似值，而不是在所有情况下都有效。有没有人能帮助我，在没有损失的情况下，如何计算不同点的梯度，或者如果我们只是使用上面提供的近似值？谢谢。你能发布你目前拥有的代码吗？@3141我不是从代码的角度看

在nesterov momentum中，误差函数相对于参数的梯度是在与成本计算点不同的点上计算的——也就是说，模型根据其先前的动量向前跳一点，然后计算梯度以用于进一步的计算。我的问题是，如果损失是在当前点计算的，那么当损失未知时，我们如何计算不同点的梯度？我读到，哪种回答了这个问题，但充其量只能提供一个近似值，而不是在所有情况下都有效。有没有人能帮助我，在没有损失的情况下，如何计算不同点的梯度，或者如果我们只是使用上面提供的近似值？谢谢。

你能发布你目前拥有的代码吗？@3141我不是从代码的角度看这个问题（不过，我想在最后把它编码出来），而是从公式化的角度看问题。我们怎么能计算在某个点上的梯度，而在这个点上我们没有损失？这对我来说似乎没有意义，TensorFlow实现使用了一个近似值，请参见我上面发布的链接。我想知道近似值是这个计算的标准，还是有更好的方法。谢谢。我对这个问题也很感兴趣，因为我想实现一个需要更多损失函数评估的优化器。到目前为止，唯一简单的解决方案是使用自定义模型并定制

train\u step

方法。我在一篇文章中（除其他外）勾勒了这一点。请让我知道你的想法。你能发布你目前拥有的代码吗？@3141我不是从代码的角度看这个问题（不过，我想在最后把它编码出来），而是从公式化的角度看。我们怎么能计算在某个点上的梯度，而在这个点上我们没有损失？这对我来说似乎没有意义，TensorFlow实现使用了一个近似值，请参见我上面发布的链接。我想知道近似值是这个计算的标准，还是有更好的方法。谢谢。我对这个问题也很感兴趣，因为我想实现一个需要更多损失函数评估的优化器。到目前为止，唯一简单的解决方案是使用自定义模型并定制

train\u step

方法。我在一篇文章中（除其他外）勾勒了这一点。请让我知道你的想法。