Neural network 建立openai健身房_Neural Network_Lstm_Rnn_Openai Gym

Neural network 建立openai健身房

neural-network

Neural network 建立openai健身房,neural-network,lstm,rnn,openai-gym,Neural Network,Lstm,Rnn,Openai Gym,我被赋予了一项任务，建立一个openai玩具健身房，这只能由一个有记忆的代理来解决。我得到了一个有两个门的例子，在t=0时，我显示为1或-1。在t=1时，我可以移动到正确的门并打开它有人知道我会怎么开始吗？我想证明a2c或ppo可以使用lstm策略解决这个问题。如何设置环境等？要以gym格式创建新环境，它应该具有gym.core文件中提到的5个功能把它一步一步地放下来- 为您的环境定义观察空间和行动空间，最好使用gym.spaces模块写下执行代理操作的step函数，并返回一个4元组，其

我被赋予了一项任务，建立一个openai玩具健身房，这只能由一个有记忆的代理来解决。我得到了一个有两个门的例子，在t=0时，我显示为1或-1。在t=1时，我可以移动到正确的门并打开它

有人知道我会怎么开始吗？我想证明a2c或ppo可以使用lstm策略解决这个问题。如何设置环境等？

要以gym格式创建新环境，它应该具有gym.core文件中提到的5个功能

把它一步一步地放下来-

为您的环境定义观察空间和行动空间，最好使用gym.spaces模块

写下执行代理操作的step函数，并返回一个4元组，其中包含-来自环境的下一组观察值，奖励，完成-一个布尔值，指示该集是否结束，如果需要，还可以提供一些额外信息

为环境编写一个重置函数，将情节重新初始化为随机开始状态，并返回一个类似于步骤的4元组

这些功能足以在您的环境中运行RL代理。如果需要，可以跳过渲染、种子设定和关闭函数

对于已定义的任务，可以使用离散（2）对观察和动作空间进行建模。第一扇门为0，第二扇门为1

重置将在观察哪个门有奖励时返回

然后代理将选择门-0或1中的任何一个

然后通过调用步骤（action）来执行环境步骤，该步骤将返回代理的奖励和完成标志为true，表示事件结束

坦率地说，您描述的问题对于任何强化学习算法来说似乎都太简单了，但我假设您已经提供了一个例子。记住更长的视野通常更难

您可以阅读他们的文档和玩具环境，了解如何创建一个