Python 来自函数输出的时间步长是如何工作的?
我正在使用Python 来自函数输出的时间步长是如何工作的?,python,tensorflow,reinforcement-learning,Python,Tensorflow,Reinforcement Learning,我正在使用tf\u代理学习深度强化学习,并遵循本强化教程: 现在,我想评估在tf\u py\u环境中提供特定初始状态的代理。我无法找到任何方法来代替使用随机初始状态初始化环境 在github源代码中,我发现了一个名为\u time\u step\u的方法,它来自函数输出,我愿意使用这个方法来给出初始时间步长(对cartpole有一个特定的初始θ),但我不知道如何使用它 有人能帮我吗
tf\u代理学习深度强化学习
,并遵循本强化教程:
现在,我想评估在tf\u py\u环境中提供特定初始状态的代理。我无法找到任何方法来代替使用随机初始状态初始化环境
在github源代码中,我发现了一个名为\u time\u step\u的方法,它来自函数输出
,我愿意使用这个方法来给出初始时间步长(对cartpole有一个特定的初始θ),但我不知道如何使用它
有人能帮我吗