Artificial intelligence 大状态-动作空间动态环境下的强化学习

Artificial intelligence 大状态-动作空间动态环境下的强化学习,artificial-intelligence,reinforcement-learning,q-learning,function-approximation,Artificial Intelligence,Reinforcement Learning,Q Learning,Function Approximation,我有一个500*500的网格,有7个不同的惩罚值。我需要制作一个RL代理,其操作空间包含11个操作。(左、右、上、下、4个对角方向、加速、减速和正常速度)。我怎样才能解决这个问题? 选择的“执行的行动”概率为0.8。否则,将选择随机操作。此外,惩罚值可以动态变化。看看Sutton incompleteideas.net/Sutton/book/ebook/node15.html的这一章,特别是他在后面章节中的实验。你的问题似乎类似于N-武装的土匪,因为每种武器都返回一个正态分布的奖励。虽然本章主

我有一个500*500的网格,有7个不同的惩罚值。我需要制作一个RL代理,其操作空间包含11个操作。(左、右、上、下、4个对角方向、加速、减速和正常速度)。我怎样才能解决这个问题?
选择的“执行的行动”概率为0.8。否则,将选择随机操作。此外,惩罚值可以动态变化。

看看Sutton incompleteideas.net/Sutton/book/ebook/node15.html的这一章,特别是他在后面章节中的实验。你的问题似乎类似于N-武装的土匪,因为每种武器都返回一个正态分布的奖励。虽然本章主要侧重于探索,但问题是适用的

另一种看待它的方式是,如果你的状态真的返回了惩罚的正态分布,那么你需要充分探索这个域,以获得状态的平均值,动作元组。这些情况下的平均值是Q*,这将为您提供最佳策略


作为后续,如果状态空间太大或太连续,可能值得使用函数逼近器进行泛化。虽然适用相同的收敛规则,但在某些情况下函数近似会遇到问题。但是我想说这超出了本次讨论的范围。

你所说的惩罚值动态变化是什么意思?状态1是否可以返回一些平均值为x的分布?还是完全一致?动态惩罚值是否只是为您处理奖励塑造?通过动态变化,我的意思是,假设在一个实例中,达到状态1时,惩罚为4。在另一种情况下,达到国家1时,可处以5的罚款。你可以把它当作,状态1,从正态分布中抽取一个惩罚。每个州都是如此。