Neural network 建立openai健身房

Neural network 建立openai健身房,neural-network,lstm,rnn,openai-gym,Neural Network,Lstm,Rnn,Openai Gym,我被赋予了一项任务,建立一个openai玩具健身房,这只能由一个有记忆的代理来解决。我得到了一个有两个门的例子,在t=0时,我显示为1或-1。在t=1时,我可以移动到正确的门并打开它 有人知道我会怎么开始吗?我想证明a2c或ppo可以使用lstm策略解决这个问题。如何设置环境等?要以gym格式创建新环境,它应该具有gym.core文件中提到的5个功能 把它一步一步地放下来- 为您的环境定义观察空间和行动空间,最好使用gym.spaces模块 写下执行代理操作的step函数,并返回一个4元组,其

我被赋予了一项任务,建立一个openai玩具健身房,这只能由一个有记忆的代理来解决。我得到了一个有两个门的例子,在t=0时,我显示为1或-1。在t=1时,我可以移动到正确的门并打开它


有人知道我会怎么开始吗?我想证明a2c或ppo可以使用lstm策略解决这个问题。如何设置环境等?

要以gym格式创建新环境,它应该具有gym.core文件中提到的5个功能

把它一步一步地放下来-

  • 为您的环境定义观察空间和行动空间,最好使用gym.spaces模块

  • 写下执行代理操作的step函数,并返回一个4元组,其中包含-来自环境的下一组观察值,奖励, 完成-一个布尔值,指示该集是否结束,如果需要,还可以提供一些额外信息

  • 为环境编写一个重置函数,将情节重新初始化为随机开始状态,并返回一个类似于步骤的4元组

  • 这些功能足以在您的环境中运行RL代理。 如果需要,可以跳过渲染、种子设定和关闭函数

    对于已定义的任务,可以使用离散(2)对观察和动作空间进行建模。第一扇门为0,第二扇门为1

  • 重置将在观察哪个门有奖励时返回
  • 然后代理将选择门-0或1中的任何一个
  • 然后通过调用步骤(action)来执行环境步骤,该步骤将返回代理的奖励和完成标志为true,表示事件结束
  • 坦率地说,您描述的问题对于任何强化学习算法来说似乎都太简单了,但我假设您已经提供了一个例子。 记住更长的视野通常更难

    您可以阅读他们的文档和玩具环境,了解如何创建一个