Artificial intelligence QLearning和永无止境的剧集

Artificial intelligence QLearning和永无止境的剧集,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,让我们想象一下,我们有一个机器人可以移动的(x,y)平面。现在我们将我们的世界中部定义为目标状态,这意味着一旦我们的机器人达到该状态,我们将给它100英镑的奖励 现在,让我们假设有4种状态(我称之为A、B、C、D)可以导致目标状态 当我们第一次处于A状态并进入目标状态时,我们将更新QValues表,如下所示: Q(state = A, action = going to goal state) = 100 + 0 Q(state = goalState, action = going to A

让我们想象一下,我们有一个机器人可以移动的(x,y)平面。现在我们将我们的世界中部定义为目标状态,这意味着一旦我们的机器人达到该状态,我们将给它100英镑的奖励

现在,让我们假设有4种状态(我称之为A、B、C、D)可以导致目标状态

当我们第一次处于A状态并进入目标状态时,我们将更新QValues表,如下所示:

Q(state = A, action = going to goal state) = 100 + 0
Q(state = goalState, action = going to A) = 0 + gamma * 100
有两种情况可能发生。我可以在这里结束这一集,然后开始另一集,机器人必须再次找到目标状态,或者我可以在找到目标状态后继续探索世界。如果我尝试这样做,我会发现一个问题。如果我处于目标状态并返回状态A,其Qvalue将如下所示:

Q(state = A, action = going to goal state) = 100 + 0
Q(state = goalState, action = going to A) = 0 + gamma * 100
现在,如果我再次尝试从A转到目标状态:

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

这意味着如果我继续这样做,因为0这是预期的,因为Q估计不是预期的回报,它是预期的回报,这是(可能通过gamma贴现)如果我从那里开始并遵循我的政策直到情节结束或永远,我期望从该状态/行动中获得的回报量


如果你给我一些按钮,其中一个按钮按下时总是产生1美元,那么按下该按钮的真正预期回报是1美元。但是,如果我有无限多的机会按下按钮,那么按下按钮的真正预期回报是无限的美元

我真的什么都不知道,但是一旦收到奖励,就把它从董事会上移除难道没有意义吗?你的想法似乎不坏,但我从未在任何地方看到过它。我不太理解你的观点。我很清楚,Q估计值不是预期的回报,但我不明白有什么意义,如果我把它放在一周的时间里,我会发现目标状态附近的状态的Q值接近9M或其他什么,而不是在目标状态下有一个100的梯度,当我离它越来越远时,它会变得越来越低。不管它从什么状态开始,它都可以在几步之内到达目标状态,之后它可以随意地修改目标状态。因此,几乎任何状态/动作对的预期回报都将趋于无穷大(或由gamma值决定的上限)。如果你想从持续的任务中获得有意义的Q值,那么你需要设计有意义的奖励。