Process Cart-Pole框架与强化学习

Process Cart-Pole框架与强化学习,process,markov,Process,Markov,我正在做一个辅助项目,该项目正在模拟倒立摆问题并解决它 使用强化学习算法,尤其是Q-学习。我已经为网格世界设计了一个简单的MDP解算器——简单的东西 然而,经过几天的研究论文筛选,我正在努力找出如何做到这一点。没有解释如何建立一个框架来表示问题 在对问题建模时,是否可以使用标准的马尔可夫决策过程?还是一定是POMDP 每个状态代表什么(即,哪些状态信息传递给代理)?摆锤的坐标、速度、角度等 代理可以采取什么行动?它是在+或-x方向上的连续速度范围吗 非常感谢您的建议。理查德·萨顿(Richard

我正在做一个辅助项目,该项目正在模拟倒立摆问题并解决它 使用强化学习算法,尤其是Q-学习。我已经为网格世界设计了一个简单的MDP解算器——简单的东西

然而,经过几天的研究论文筛选,我正在努力找出如何做到这一点。没有解释如何建立一个框架来表示问题

在对问题建模时,是否可以使用标准的马尔可夫决策过程?还是一定是POMDP

每个状态代表什么(即,哪些状态信息传递给代理)?摆锤的坐标、速度、角度等

代理可以采取什么行动?它是在+或-x方向上的连续速度范围吗

非常感谢您的建议。

理查德·萨顿(Richard S.Sutton)和安德鲁·巴托(Andrew G.Barto)的《强化学习:简介》是关于强化学习的默认书籍,他们还讨论了车杆问题()。Sutton还提供了车杆问题的C代码: 当然,有许多在线问题的实现:

这个问题有多种解决方案,具体取决于您想要的解决方案

  • 您可以将其建模为MDP或POMDP
  • 状态可以由位置、速度、角度和角度速度或它们的任何子集组成
  • 你可以离散状态空间,你可以使用函数近似
  • 动作可以是简单的最小和最大加速度(离散),介于两者之间(离散或连续)
从简单的开始,用你的方式解决更困难的问题