Artificial intelligence 大状态-动作空间动态环境下的强化学习_Artificial Intelligence_Reinforcement Learning_Q Learning_Function Approximation

Artificial intelligence 大状态-动作空间动态环境下的强化学习

artificial-intelligence

Artificial intelligence 大状态-动作空间动态环境下的强化学习,artificial-intelligence,reinforcement-learning,q-learning,function-approximation,Artificial Intelligence,Reinforcement Learning,Q Learning,Function Approximation,我有一个500*500的网格，有7个不同的惩罚值。我需要制作一个RL代理，其操作空间包含11个操作。（左、右、上、下、4个对角方向、加速、减速和正常速度）。我怎样才能解决这个问题？选择的“执行的行动”概率为0.8。否则，将选择随机操作。此外，惩罚值可以动态变化。看看Sutton incompleteideas.net/Sutton/book/ebook/node15.html的这一章，特别是他在后面章节中的实验。你的问题似乎类似于N-武装的土匪，因为每种武器都返回一个正态分布的奖励。虽然本章主

我有一个500*500的网格，有7个不同的惩罚值。我需要制作一个RL代理，其操作空间包含11个操作。（左、右、上、下、4个对角方向、加速、减速和正常速度）。我怎样才能解决这个问题？

选择的“执行的行动”概率为0.8。否则，将选择随机操作。此外，惩罚值可以动态变化。

看看Sutton incompleteideas.net/Sutton/book/ebook/node15.html的这一章，特别是他在后面章节中的实验。你的问题似乎类似于N-武装的土匪，因为每种武器都返回一个正态分布的奖励。虽然本章主要侧重于探索，但问题是适用的

另一种看待它的方式是，如果你的状态真的返回了惩罚的正态分布，那么你需要充分探索这个域，以获得状态的平均值，动作元组。这些情况下的平均值是Q*，这将为您提供最佳策略

作为后续，如果状态空间太大或太连续，可能值得使用函数逼近器进行泛化。虽然适用相同的收敛规则，但在某些情况下函数近似会遇到问题。但是我想说这超出了本次讨论的范围。

你所说的惩罚值动态变化是什么意思？状态1是否可以返回一些平均值为x的分布？还是完全一致？动态惩罚值是否只是为您处理奖励塑造？通过动态变化，我的意思是，假设在一个实例中，达到状态1时，惩罚为4。在另一种情况下，达到国家1时，可处以5的罚款。你可以把它当作，状态1，从正态分布中抽取一个惩罚。每个州都是如此。