Artificial intelligence Qlearning和奖励索引_Artificial Intelligence_Reinforcement Learning

Artificial intelligence Qlearning和奖励索引

artificial-intelligence

Artificial intelligence Qlearning和奖励索引,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,我的问题可能很简单，但我不确定众所周知的Q-学习方程中的时间指数方程式： Qt+1（St，At）=Qt（St，At）+alpha*（Rt+1+伽马*max_A（Qt（St+1，A））-Qt（St，At））我不明白Rt+1代表什么。简单的例子：我们在时间T处于状态X 基于epsilon贪婪选择新动作应用操作我们在时间T+1处于状态Y （现在我们需要更新状态Y的Q值）奖励是从动作X->Y（？）计算出来的，还是在评估所有下一个Q值（max_A（Q（Y，A））后从动作Y->Z计算出来的重复1

我的问题可能很简单，但我不确定众所周知的Q-学习方程中的时间指数

方程式： Qt+1（St，At）=Qt（St，At）+alpha*（Rt+1+伽马*max_A（Qt（St+1，A））-Qt（St，At））

我不明白Rt+1代表什么。简单的例子：

我们在时间T处于状态X

基于epsilon贪婪选择新动作

应用操作

我们在时间T+1处于状态Y

（现在我们需要更新状态Y的Q值）奖励是从动作X->Y（？）计算出来的，还是在评估所有下一个Q值（max_A（Q（Y，A））后从动作Y->Z计算出来的

重复1次

在上一轮中，您处于s（t）状态并采取了行动a（t）。现在你处于状态s（t+1），接受奖励r（t+1）并（贪婪地）选择动作a（t+1）。将上一个动作的值调整为新动作的折扣值和奖励的总和

您的示例中有一些误解：

实际上，您正在更新操作，而不是状态值

您正在更新状态为X而不是Y的操作的值

在状态X采取的具体行动可能会导致不同的状态，而不仅仅是Y，因此不存在X→Y动作

您的示例中有一些误解：

实际上，您正在更新操作，而不是状态值

您正在更新状态为X而不是Y的操作的值

在状态X采取的具体行动可能会导致不同的状态，而不仅仅是Y，因此不存在X→Y动作

您的示例中有一些误解：

实际上，您正在更新操作，而不是状态值

您正在更新状态为X而不是Y的操作的值

在状态X采取的具体行动可能会导致不同的状态，而不仅仅是Y，因此不存在X→Y动作

您的示例中有一些误解：

实际上，您正在更新操作，而不是状态值

您正在更新状态为X而不是Y的操作的值

在状态X采取的具体行动可能会导致不同的状态，而不仅仅是Y，因此不存在X→Y动作

好的，就一个问题。当更新Q（s，a）时，我采用max_a Q（s'，a）（然后贪婪地选择动作形式s'），对吗？@SnurkaBill

a（t+1）=max_a（s（t+1），a）

是动作的贪婪选择好吧，我知道问题出在哪里了，我的有限状态空间实现工作得很好，但当我想用一些分类器（神经网络）来概括它时我遇到麻烦了，什么都不管用。你能帮我解决这个问题吗？@SnurkaBill这有点太多了，对不起。：）好的，就一个问题。当更新Q（s，a）时，我采用max_a Q（s'，a）（然后贪婪地选择动作形式s'），对吗？@SnurkaBill

a（t+1）=max_a（s（t+1），a）

a（t+1）=max_a（s（t+1），a）

a（t+1）=max_a（s（t+1），a）

是动作的贪婪选择好吧，我知道问题出在哪里了，我的有限状态空间实现工作得很好，但当我想用一些分类器（神经网络）来概括它时我遇到麻烦了，什么都不管用。你能帮我解决这个问题吗？@SnurkaBill这有点太多了，对不起。：）