Python 来自函数输出的时间步长是如何工作的？_Python_Tensorflow_Reinforcement Learning

Python 来自函数输出的时间步长是如何工作的？

python tensorflow

Python 来自函数输出的时间步长是如何工作的？,python,tensorflow,reinforcement-learning,Python,Tensorflow,Reinforcement Learning,我正在使用tf\u代理学习深度强化学习，并遵循本强化教程：现在，我想评估在tf\u py\u环境中提供特定初始状态的代理。我无法找到任何方法来代替使用随机初始状态初始化环境在github源代码中，我发现了一个名为\u time\u step\u的方法，它来自函数输出，我愿意使用这个方法来给出初始时间步长（对cartpole有一个特定的初始θ），但我不知道如何使用它有人能帮我吗

我正在使用

tf\u代理学习深度强化学习

，并遵循本强化教程：

现在，我想评估在

tf\u py\u环境中提供特定初始状态的代理。我无法找到任何方法来代替使用随机初始状态初始化环境
在github源代码中，我发现了一个名为\u time\u step\u的方法，它来自函数输出
，我愿意使用这个方法来给出初始时间步长（对cartpole有一个特定的初始θ），但我不知道如何使用它
有人能帮我吗