Artificial intelligence QLearning和永无止境的剧集_Artificial Intelligence_Reinforcement Learning

Artificial intelligence QLearning和永无止境的剧集

artificial-intelligence

Artificial intelligence QLearning和永无止境的剧集,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,让我们想象一下，我们有一个机器人可以移动的（x，y）平面。现在我们将我们的世界中部定义为目标状态，这意味着一旦我们的机器人达到该状态，我们将给它100英镑的奖励现在，让我们假设有4种状态（我称之为A、B、C、D）可以导致目标状态当我们第一次处于A状态并进入目标状态时，我们将更新QValues表，如下所示： Q(state = A, action = going to goal state) = 100 + 0 Q(state = goalState, action = going to A

让我们想象一下，我们有一个机器人可以移动的（x，y）平面。现在我们将我们的世界中部定义为目标状态，这意味着一旦我们的机器人达到该状态，我们将给它100英镑的奖励

现在，让我们假设有4种状态（我称之为A、B、C、D）可以导致目标状态

当我们第一次处于A状态并进入目标状态时，我们将更新QValues表，如下所示：

Q(state = A, action = going to goal state) = 100 + 0

Q(state = goalState, action = going to A) = 0 + gamma * 100

有两种情况可能发生。我可以在这里结束这一集，然后开始另一集，机器人必须再次找到目标状态，或者我可以在找到目标状态后继续探索世界。如果我尝试这样做，我会发现一个问题。如果我处于目标状态并返回状态A，其Qvalue将如下所示：

Q(state = A, action = going to goal state) = 100 + 0

Q(state = goalState, action = going to A) = 0 + gamma * 100

现在，如果我再次尝试从A转到目标状态：

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

这意味着如果我继续这样做，因为0这是预期的，因为Q估计不是预期的回报，它是预期的回报，这是（可能通过gamma贴现）如果我从那里开始并遵循我的政策直到情节结束或永远，我期望从该状态/行动中获得的回报量

如果你给我一些按钮，其中一个按钮按下时总是产生1美元，那么按下该按钮的真正预期回报是1美元。但是，如果我有无限多的机会按下按钮，那么按下按钮的真正预期回报是无限的美元

我真的什么都不知道，但是一旦收到奖励，就把它从董事会上移除难道没有意义吗？你的想法似乎不坏，但我从未在任何地方看到过它。我不太理解你的观点。我很清楚，Q估计值不是预期的回报，但我不明白有什么意义，如果我把它放在一周的时间里，我会发现目标状态附近的状态的Q值接近9M或其他什么，而不是在目标状态下有一个100的梯度，当我离它越来越远时，它会变得越来越低。不管它从什么状态开始，它都可以在几步之内到达目标状态，之后它可以随意地修改目标状态。因此，几乎任何状态/动作对的预期回报都将趋于无穷大（或由gamma值决定的上限）。如果你想从持续的任务中获得有意义的Q值，那么你需要设计有意义的奖励。