Algorithm 预测点nesterov动量梯度计算

Algorithm 预测点nesterov动量梯度计算,algorithm,tensorflow,machine-learning,neural-network,gradient-descent,Algorithm,Tensorflow,Machine Learning,Neural Network,Gradient Descent,在nesterov momentum中,误差函数相对于参数的梯度是在与成本计算点不同的点上计算的——也就是说,模型根据其先前的动量向前跳一点,然后计算梯度以用于进一步的计算。我的问题是,如果损失是在当前点计算的,那么当损失未知时,我们如何计算不同点的梯度?我读到,哪种回答了这个问题,但充其量只能提供一个近似值,而不是在所有情况下都有效。有没有人能帮助我,在没有损失的情况下,如何计算不同点的梯度,或者如果我们只是使用上面提供的近似值?谢谢。你能发布你目前拥有的代码吗?@3141我不是从代码的角度看

在nesterov momentum中,误差函数相对于参数的梯度是在与成本计算点不同的点上计算的——也就是说,模型根据其先前的动量向前跳一点,然后计算梯度以用于进一步的计算。我的问题是,如果损失是在当前点计算的,那么当损失未知时,我们如何计算不同点的梯度?我读到,哪种回答了这个问题,但充其量只能提供一个近似值,而不是在所有情况下都有效。有没有人能帮助我,在没有损失的情况下,如何计算不同点的梯度,或者如果我们只是使用上面提供的近似值?谢谢。

你能发布你目前拥有的代码吗?@3141我不是从代码的角度看这个问题(不过,我想在最后把它编码出来),而是从公式化的角度看问题。我们怎么能计算在某个点上的梯度,而在这个点上我们没有损失?这对我来说似乎没有意义,TensorFlow实现使用了一个近似值,请参见我上面发布的链接。我想知道近似值是这个计算的标准,还是有更好的方法。谢谢。我对这个问题也很感兴趣,因为我想实现一个需要更多损失函数评估的优化器。到目前为止,唯一简单的解决方案是使用自定义模型并定制
train\u step
方法。我在一篇文章中(除其他外)勾勒了这一点。请让我知道你的想法。你能发布你目前拥有的代码吗?@3141我不是从代码的角度看这个问题(不过,我想在最后把它编码出来),而是从公式化的角度看。我们怎么能计算在某个点上的梯度,而在这个点上我们没有损失?这对我来说似乎没有意义,TensorFlow实现使用了一个近似值,请参见我上面发布的链接。我想知道近似值是这个计算的标准,还是有更好的方法。谢谢。我对这个问题也很感兴趣,因为我想实现一个需要更多损失函数评估的优化器。到目前为止,唯一简单的解决方案是使用自定义模型并定制
train\u step
方法。我在一篇文章中(除其他外)勾勒了这一点。请让我知道你的想法。