Artificial intelligence QLearning中的负回报_Artificial Intelligence_Reinforcement Learning

Artificial intelligence QLearning中的负回报

artificial-intelligence

Artificial intelligence QLearning中的负回报,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,假设我们在一个房间里，我们的代理可以沿着xx和yy轴移动。在每一点上，他都可以上下左右移动。所以我们的状态空间可以用（x，y）来定义，我们在每个点上的动作可以用（上，下，右，左）来表示。让我们假设，无论我们的代理人做了什么会让他撞到墙的动作，我们都会给他-1的负奖励，并让他回到以前的状态。如果他在房间中央发现一个木偶，他将赢得+10奖励当我们更新给定状态/动作对的Q值时，我们看到在新状态下可以执行哪些动作，并计算可能达到的最大Q值，因此我们可以更新当前状态/动作的Q（s，a）值。这意味着，如果

假设我们在一个房间里，我们的代理可以沿着xx和yy轴移动。在每一点上，他都可以上下左右移动。所以我们的状态空间可以用（x，y）来定义，我们在每个点上的动作可以用（上，下，右，左）来表示。让我们假设，无论我们的代理人做了什么会让他撞到墙的动作，我们都会给他-1的负奖励，并让他回到以前的状态。如果他在房间中央发现一个木偶，他将赢得+10奖励

当我们更新给定状态/动作对的Q值时，我们看到在新状态下可以执行哪些动作，并计算可能达到的最大Q值，因此我们可以更新当前状态/动作的Q（s，a）值。这意味着，如果我们在点（10，10）中有一个目标状态，那么它周围的所有状态的Q值都会随着距离的增加而越来越小。现在，关于墙壁，在我看来，情况并非如此

当代理撞到墙时（假设他处于（0，0）位置并完成了动作），他将获得该状态/动作的-1奖励，从而获得-1的Q值

现在，如果稍后我处于状态（0，1），并且假设状态（0，0）的所有其他动作都为零，那么在计算左动作（0，1）的Q值时，它将按以下方式计算：

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

这就是说，撞到墙不会传播到附近的状态，与你有正奖励状态时的情况相反

在我看来，这似乎很奇怪。起初，我认为寻找给予消极奖励的状态/动作对和给予积极奖励一样有助于学习，但从我上面展示的例子来看，这种说法似乎并不成立。在算法中似乎存在一种偏见，即更多地考虑积极回报而不是消极回报

这是QLearning的预期行为吗？不好的回报不应该和积极的回报一样重要吗？这方面的“解决办法”是什么？

只有当负面反馈是特定行动的唯一可能结果时，负面反馈才会传播

我不知道这是故意的还是无意的。

通过将默认奖励从0增加到1，目标奖励从10增加到11，惩罚从-1增加到0，可以避免负面奖励

有很多关于Q-learning的科学出版物，所以我相信还有其他的公式可以允许负面反馈

编辑：我的立场是正确的，这并没有改变我前面所说的行为。我的想法是，有负面反馈的配方可以被没有负面反馈的配方所取代

你观察的原因是，你对你的行动的结果或它所处的状态没有不确定性，因此你的代理人总是可以选择它认为具有最佳回报的行动（因此，在所有未来行动中的最大Q值）。这就是为什么你的负面反馈不会传播：代理只会在将来避免这种行为

但是，如果您的模型将包含对您行为结果的不确定性（例如，始终有10%的概率朝随机方向移动），则您的学习规则应整合到所有可能的未来奖励中（基本上用加权和代替最大值）。在这种情况下，负面反馈也可以传播（这就是为什么我认为这应该是可能的：p）。这类模型的例子有。

你的问题在《强化学习：导论》一书中得到了回答，书中有“最大化偏差和双重学习”一节

“Q-学习”算法有一个缺点，即隐式地使用最大过度估计值作为最大值的估计，这可能导致显著的正偏差

“双Q学习”算法可以避免最大化偏差并解决您的问题，您需要学习两个独立的估计，称为Q_1（a）和Q_2（a）。在这里，我为您粘贴伪代码：

这是一个编程问题还是一个理论问题？您能详细说明一下您认为这是如何工作的吗？因为它没有。在你的例子中，max（）将显示1（默认值），即使你减少了部分（但不是全部）组件。实际上，现在我想起来了，它会使代理想要进入（之前）负奖励状态，因为它们高于0（qvalue空表的默认值）。我刚才注意到我误读了你原来的帖子。你的想法将产生与最初的QLearning公式完全相同的结果，catch。除了你的最后一段，我明白你所说的一切。为什么不确定性会让它传播负面回报？如果在我做的每一个动作中，我能以10%的概率选择一个不同的动作，平均来说，我会对所有动作犯下相同的“错误”，只是降低所有其他动作的总体预期值。这就是你的意思吗？是的，除了

你“不会选择另一个”，命运”会。如果我在一个靠近墙的正方形上，任何动作都有一个很小的（或者在移动到墙的时候有很大的）负奖励概率。这意味着站在墙旁边的预期回报将比站在离墙更远的地方的预期回报要少，因为他们意外地以坏状态结束的概率在那里更小。这是一个很好的结论，是的。