Reinforcement learning lambda能否用于非策略强化学习和体验式重播?

Reinforcement learning lambda能否用于非策略强化学习和体验式重播?,reinforcement-learning,Reinforcement Learning,DQN使用非策略RL,以便从通过遵循任何策略收集的经验数据中学习最优策略,例如观察专家、以前的非最优策略等 经验是一组数据,其形式如下: (s1、a1、r2、s2) 这里r2是执行a1后立即收到的实际奖励 这些经验用于建立表格的监督学习示例: 净输入:(s1,a1),净目标:r2+gamma*argmax(a,Q(s2,a))) r2可以通过使用lambda和合格性跟踪来计算吗?我猜这是不可能的,因为这将使r2依赖于用于生成体验的策略,而这不是正在学习的策略 lambda是否仅适用于on-pol

DQN使用非策略RL,以便从通过遵循任何策略收集的经验数据中学习最优策略,例如观察专家、以前的非最优策略等

经验是一组数据,其形式如下:

(s1、a1、r2、s2)

这里r2是执行a1后立即收到的实际奖励

这些经验用于建立表格的监督学习示例:

净输入:(s1,a1),净目标:r2+gamma*argmax(a,Q(s2,a)))

r2可以通过使用lambda和合格性跟踪来计算吗?我猜这是不可能的,因为这将使r2依赖于用于生成体验的策略,而这不是正在学习的策略

lambda是否仅适用于on-policy RL?

您是对的,对于off-policy强化学习算法,应用资格跟踪时应考虑一些因素。原因正是你所说的

然而,即使它的效率低于on-policy方法,跟踪在off-policy算法中也很有用。在中,出现了一个关于Q-learning案例的很好的解释,它可以应用于其他案例:

回想一下,Q-learning是一种非策略方法,这意味着 了解的策略不必与用于选择的策略相同 行动。特别是,Q-learning学习贪婪策略 虽然它通常遵循涉及探索性的策略 动作——偶尔选择次优的动作 根据。因此,在使用时需要特别小心 引入资格跟踪

假设我们正在备份状态操作对。假设 在接下来的两个时间步骤中,代理选择贪婪操作,但继续 第三,在这个时候,代理选择了一个探索性的非reedy 行动。在了解贪婪政策的价值时,我们可以使用 只有当贪婪政策被执行时,才有后续经验 跟着。因此,我们可以使用一步和两步返回,但不能, 在这种情况下,三步返回。-步骤返回所有no 不再与贪婪政策有任何必要的联系