Python 张量流梯度带何时施加动量?
我一直在玩tensorflow中的自动渐变,我有一个问题。如果我们正在更新一个优化器,比如亚当,什么时候动量算法应用于梯度?它是在我们调用tape.gradient(loss,model.trainable_变量)还是在调用model.optimizer.apply_梯度(zip(dtf_网络,model.trainable_变量))时应用的Python 张量流梯度带何时施加动量?,python,tensorflow,adam,Python,Tensorflow,Adam,我一直在玩tensorflow中的自动渐变,我有一个问题。如果我们正在更新一个优化器,比如亚当,什么时候动量算法应用于梯度?它是在我们调用tape.gradient(loss,model.trainable_变量)还是在调用model.optimizer.apply_梯度(zip(dtf_网络,model.trainable_变量))时应用的 谢谢 tape.gradient直接计算梯度,无需参考优化器。因为动量是优化器的一部分,所以磁带不包括动量。AFAIK动量通常通过在存储运行平均值的优化器
谢谢
tape.gradient
直接计算梯度,无需参考优化器。因为动量是优化器的一部分,所以磁带不包括动量。AFAIK动量通常通过在存储运行平均值的优化器中添加额外变量来实现。所有这些都在优化器中处理。应用梯度