Deep learning 为什么在深度Q学习中,行动的Q值如此接近?

Deep learning 为什么在深度Q学习中,行动的Q值如此接近?,deep-learning,reinforcement-learning,q-learning,Deep Learning,Reinforcement Learning,Q Learning,我正在训练一个DRL代理使用DQN方法玩游戏。这场比赛非常直接,类似于突破。水果不断从屏幕顶部(垂直)掉落,代理只需将自身与水果对齐即可获得奖励。它可以采取三种行动:向左移动、停留、向右移动 假设a2表示不移动桨叶,a3表示向右移动,a1表示向左移动 假设我们采取次优动作a3(向右移动)并移动到下一个状态。然后,该状态下的最佳操作是向左移动(a1),然后执行最佳操作。因此,行动a2和a3之间的唯一成本差异将是来回浪费的两个步骤 如果采取次优行动没有负报酬,那么代理人就没有选择最优行动的动机。因此

我正在训练一个DRL代理使用DQN方法玩游戏。这场比赛非常直接,类似于突破。水果不断从屏幕顶部(垂直)掉落,代理只需将自身与水果对齐即可获得奖励。它可以采取三种行动:向左移动、停留、向右移动

假设a2表示不移动桨叶,a3表示向右移动,a1表示向左移动

假设我们采取次优动作a3(向右移动)并移动到下一个状态。然后,该状态下的最佳操作是向左移动(a1),然后执行最佳操作。因此,行动a2和a3之间的唯一成本差异将是来回浪费的两个步骤

如果采取次优行动没有负报酬,那么代理人就没有选择最优行动的动机。因此,采取次优行动的负回报应该足够高,以使代理人不愿意这样做。我试着用数学的方法来解释这个直觉。这可以解释为什么q值彼此如此接近

然后,最优Q*函数满足以下条件:

1) 这是正确的吗?(这个论点有缺陷吗?)

2) 这能解释为什么在深度Q学习中Q值彼此非常接近吗