Reinforcement learning lambda能否用于非策略强化学习和体验式重播？_Reinforcement Learning

Reinforcement learning lambda能否用于非策略强化学习和体验式重播？

Reinforcement learning lambda能否用于非策略强化学习和体验式重播？,reinforcement-learning,Reinforcement Learning,DQN使用非策略RL，以便从通过遵循任何策略收集的经验数据中学习最优策略，例如观察专家、以前的非最优策略等经验是一组数据，其形式如下：（s1、a1、r2、s2）这里r2是执行a1后立即收到的实际奖励这些经验用于建立表格的监督学习示例：净输入：（s1，a1），净目标：r2+gamma*argmax（a，Q（s2，a））） r2可以通过使用lambda和合格性跟踪来计算吗？我猜这是不可能的，因为这将使r2依赖于用于生成体验的策略，而这不是正在学习的策略 lambda是否仅适用于on-pol

DQN使用非策略RL，以便从通过遵循任何策略收集的经验数据中学习最优策略，例如观察专家、以前的非最优策略等

经验是一组数据，其形式如下：

（s1、a1、r2、s2）

这里r2是执行a1后立即收到的实际奖励

这些经验用于建立表格的监督学习示例：

净输入：（s1，a1），净目标：r2+gamma*argmax（a，Q（s2，a）））

r2可以通过使用lambda和合格性跟踪来计算吗？我猜这是不可能的，因为这将使r2依赖于用于生成体验的策略，而这不是正在学习的策略

lambda是否仅适用于on-policy RL？

您是对的，对于off-policy强化学习算法，应用资格跟踪时应考虑一些因素。原因正是你所说的

然而，即使它的效率低于on-policy方法，跟踪在off-policy算法中也很有用。在中，出现了一个关于Q-learning案例的很好的解释，它可以应用于其他案例：

回想一下，Q-learning是一种非策略方法，这意味着了解的策略不必与用于选择的策略相同行动。特别是，Q-learning学习贪婪策略虽然它通常遵循涉及探索性的策略动作——偶尔选择次优的动作根据。因此，在使用时需要特别小心引入资格跟踪

假设我们正在备份状态操作对。假设在接下来的两个时间步骤中，代理选择贪婪操作，但继续第三，在这个时候，代理选择了一个探索性的非reedy 行动。在了解贪婪政策的价值时，我们可以使用只有当贪婪政策被执行时，才有后续经验跟着。因此，我们可以使用一步和两步返回，但不能，在这种情况下，三步返回。-步骤返回所有no 不再与贪婪政策有任何必要的联系