Reinforcement learning 车杆问题强化学习奖励
对于手推车杆平衡问题,我想知道为什么这么多为控制器解决强化学习的实现都有一个奖励函数,每次杆倒下时奖励1,每次杆保持直立时奖励0Reinforcement learning 车杆问题强化学习奖励,reinforcement-learning,Reinforcement Learning,对于手推车杆平衡问题,我想知道为什么这么多为控制器解决强化学习的实现都有一个奖励函数,每次杆倒下时奖励1,每次杆保持直立时奖励0 如果摔倒立即产生的回报与平衡一分钟后摔倒的回报相同,那么这将如何训练系统?此时您丢失的信息是正确的 在对控制器执行更新时,RL算法通常会使用折扣奖励,其中较早发生的-1奖励不如较晚发生的-1奖励 例如,如果电杆略偏中心左侧;将磁极一直向左移动比将磁极一直向右移动更快收到-1。因此,当磁极向左时,最好将其向右移动。当杆子向右移动时,向左移动更好。从而使杆围绕中心保持平衡
如果摔倒立即产生的回报与平衡一分钟后摔倒的回报相同,那么这将如何训练系统?此时您丢失的信息是正确的 在对控制器执行更新时,RL算法通常会使用折扣奖励,其中较早发生的
-1
奖励不如较晚发生的-1
奖励
例如,如果电杆略偏中心左侧;将磁极一直向左移动比将磁极一直向右移动更快收到-1
。因此,当磁极向左时,最好将其向右移动。当杆子向右移动时,向左移动更好。从而使杆围绕中心保持平衡
就奖励折扣方式而言,我们通常使用0到1之间的折扣因子参数乘以每个时间步的奖励。例如,如果通过选择左操作,我们在1个时间步中获得-1
奖励,右操作将在2个时间步中给我们-1
奖励,那么预期的折扣奖励(折扣系数为0.99)将是左(-0.99
)的0.99*-1
,右(0.99*0.99*-1
)(-0.9801
),所以选择正确会更好
另外,仅供参考-是一个更好的提问RL问题的地方,因为这个问题实际上不是关于编码的。99.9%的读者不知道“车杆平衡问题”是什么,所以请在引用中编辑。啊,我理解。非常感谢。我将在将来使用正确的交换。