Process Cart-Pole框架与强化学习_Process_Markov

Process Cart-Pole框架与强化学习

process

Process Cart-Pole框架与强化学习,process,markov,Process,Markov,我正在做一个辅助项目，该项目正在模拟倒立摆问题并解决它使用强化学习算法，尤其是Q-学习。我已经为网格世界设计了一个简单的MDP解算器——简单的东西然而，经过几天的研究论文筛选，我正在努力找出如何做到这一点。没有解释如何建立一个框架来表示问题在对问题建模时，是否可以使用标准的马尔可夫决策过程？还是一定是POMDP 每个状态代表什么（即，哪些状态信息传递给代理）？摆锤的坐标、速度、角度等代理可以采取什么行动？它是在+或-x方向上的连续速度范围吗非常感谢您的建议。理查德·萨顿（Richard

我正在做一个辅助项目，该项目正在模拟倒立摆问题并解决它使用强化学习算法，尤其是Q-学习。我已经为网格世界设计了一个简单的MDP解算器——简单的东西

然而，经过几天的研究论文筛选，我正在努力找出如何做到这一点。没有解释如何建立一个框架来表示问题

在对问题建模时，是否可以使用标准的马尔可夫决策过程？还是一定是POMDP

每个状态代表什么（即，哪些状态信息传递给代理）？摆锤的坐标、速度、角度等

代理可以采取什么行动？它是在+或-x方向上的连续速度范围吗

非常感谢您的建议。

理查德·萨顿（Richard S.Sutton）和安德鲁·巴托（Andrew G.Barto）的《强化学习：简介》是关于强化学习的默认书籍，他们还讨论了车杆问题（）。Sutton还提供了车杆问题的C代码：当然，有许多在线问题的实现：

这个问题有多种解决方案，具体取决于您想要的解决方案

您可以将其建模为MDP或POMDP
状态可以由位置、速度、角度和角度速度或它们的任何子集组成
你可以离散状态空间，你可以使用函数近似
动作可以是简单的最小和最大加速度（离散），介于两者之间（离散或连续）

从简单的开始，用你的方式解决更困难的问题