Python 如何在TensorFlow中的RL训练步骤中跳过多余的前向支柱
我有一个关于强化学习的Tensorflow问题。我所有的东西都在工作和训练,但有些东西感觉多余。想指出并倾听您的想法: 让我们假设一些简单的事情,比如情节强化。鉴于此标准设置:Python 如何在TensorFlow中的RL训练步骤中跳过多余的前向支柱,python,tensorflow,machine-learning,artificial-intelligence,reinforcement-learning,Python,Tensorflow,Machine Learning,Artificial Intelligence,Reinforcement Learning,我有一个关于强化学习的Tensorflow问题。我所有的东西都在工作和训练,但有些东西感觉多余。想指出并倾听您的想法: 让我们假设一些简单的事情,比如情节强化。鉴于此标准设置: state->network->logits 当我想训练时(当一集结束时),我需要: 向TF占位符传递一组状态(从运行该集时保存) 对保存的状态进行正向传递以生成登录 计算日志问题(使用保存的操作数组) 计算损失(使用保存的优势阵列) 这个很好用。然而,第1步和第2步似乎是多余的。我更喜欢在运行该集的过程中计算该集的每个
state->network->logits
当我想训练时(当一集结束时),我需要:
optimizer有关。计算梯度(我可以在其中传递变量)和optimizer。应用梯度,但不确定如何