Deep learning 为什么在深度Q学习中，行动的Q值如此接近？_Deep Learning_Reinforcement Learning_Q Learning

Deep learning 为什么在深度Q学习中，行动的Q值如此接近？

deep-learning

Deep learning 为什么在深度Q学习中，行动的Q值如此接近？,deep-learning,reinforcement-learning,q-learning,Deep Learning,Reinforcement Learning,Q Learning,我正在训练一个DRL代理使用DQN方法玩游戏。这场比赛非常直接，类似于突破。水果不断从屏幕顶部（垂直）掉落，代理只需将自身与水果对齐即可获得奖励。它可以采取三种行动：向左移动、停留、向右移动假设a2表示不移动桨叶，a3表示向右移动，a1表示向左移动假设我们采取次优动作a3（向右移动）并移动到下一个状态。然后，该状态下的最佳操作是向左移动（a1），然后执行最佳操作。因此，行动a2和a3之间的唯一成本差异将是来回浪费的两个步骤如果采取次优行动没有负报酬，那么代理人就没有选择最优行动的动机。因此

我正在训练一个DRL代理使用DQN方法玩游戏。这场比赛非常直接，类似于突破。水果不断从屏幕顶部（垂直）掉落，代理只需将自身与水果对齐即可获得奖励。它可以采取三种行动：向左移动、停留、向右移动

假设a2表示不移动桨叶，a3表示向右移动，a1表示向左移动

假设我们采取次优动作a3（向右移动）并移动到下一个状态。然后，该状态下的最佳操作是向左移动（a1），然后执行最佳操作。因此，行动a2和a3之间的唯一成本差异将是来回浪费的两个步骤

如果采取次优行动没有负报酬，那么代理人就没有选择最优行动的动机。因此，采取次优行动的负回报应该足够高，以使代理人不愿意这样做。我试着用数学的方法来解释这个直觉。这可以解释为什么q值彼此如此接近

然后，最优Q*函数满足以下条件：

1）这是正确的吗？（这个论点有缺陷吗？）

2）这能解释为什么在深度Q学习中Q值彼此非常接近吗