Artificial intelligence Qlearning和奖励索引
我的问题可能很简单,但我不确定众所周知的Q-学习方程中的时间指数 方程式: Qt+1(St,At)=Qt(St,At)+alpha*(Rt+1+伽马*max_A(Qt(St+1,A))-Qt(St,At)) 我不明白Rt+1代表什么。简单的例子:Artificial intelligence Qlearning和奖励索引,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,我的问题可能很简单,但我不确定众所周知的Q-学习方程中的时间指数 方程式: Qt+1(St,At)=Qt(St,At)+alpha*(Rt+1+伽马*max_A(Qt(St+1,A))-Qt(St,At)) 我不明白Rt+1代表什么。简单的例子: 我们在时间T处于状态X 基于epsilon贪婪选择新动作 应用操作 我们在时间T+1处于状态Y (现在我们需要更新状态Y的Q值)奖励是从动作X->Y(?)计算出来的,还是在评估所有下一个Q值(max_A(Q(Y,A))后从动作Y->Z计算出来的 重复1
在上一轮中,您处于s(t)状态并采取了行动a(t)。现在你处于状态s(t+1),接受奖励r(t+1)并(贪婪地)选择动作a(t+1)。将上一个动作的值调整为新动作的折扣值和奖励的总和 您的示例中有一些误解:
在上一轮中,您处于s(t)状态并采取了行动a(t)。现在你处于状态s(t+1),接受奖励r(t+1)并(贪婪地)选择动作a(t+1)。将上一个动作的值调整为新动作的折扣值和奖励的总和 您的示例中有一些误解:
在上一轮中,您处于s(t)状态并采取了行动a(t)。现在你处于状态s(t+1),接受奖励r(t+1)并(贪婪地)选择动作a(t+1)。将上一个动作的值调整为新动作的折扣值和奖励的总和 您的示例中有一些误解:
在上一轮中,您处于s(t)状态并采取了行动a(t)。现在你处于状态s(t+1),接受奖励r(t+1)并(贪婪地)选择动作a(t+1)。将上一个动作的值调整为新动作的折扣值和奖励的总和 您的示例中有一些误解:
好的,就一个问题。当更新Q(s,a)时,我采用max_a Q(s',a)(然后贪婪地选择动作形式s'),对吗?@SnurkaBill
a(t+1)=max_a(s(t+1),a)
是动作的贪婪选择好吧,我知道问题出在哪里了,我的有限状态空间实现工作得很好,但当我想用一些分类器(神经网络)来概括它时我遇到麻烦了,什么都不管用。你能帮我解决这个问题吗?@SnurkaBill这有点太多了,对不起。:)好的,就一个问题。当更新Q(s,a)时,我采用max_a Q(s',a)(然后贪婪地选择动作形式s'),对吗?@SnurkaBilla(t+1)=max_a(s(t+1),a)
是动作的贪婪选择好吧,我知道问题出在哪里了,我的有限状态空间实现工作得很好,但当我想用一些分类器(神经网络)来概括它时我遇到麻烦了,什么都不管用。你能帮我解决这个问题吗?@SnurkaBill这有点太多了,对不起。:)好的,就一个问题。当更新Q(s,a)时,我采用max_a Q(s',a)(然后贪婪地选择动作形式s'),对吗?@SnurkaBilla(t+1)=max_a(s(t+1),a)
是动作的贪婪选择好吧,我知道问题出在哪里了,我的有限状态空间实现工作得很好,但当我想用一些分类器(神经网络)来概括它时我遇到麻烦了,什么都不管用。你能帮我解决这个问题吗?@SnurkaBill这有点太多了,对不起。:)好的,就一个问题。当更新Q(s,a)时,我采用max_a Q(s',a)(然后贪婪地选择动作形式s'),对吗?@SnurkaBilla(t+1)=max_a(s(t+1),a)
是动作的贪婪选择好吧,我知道问题出在哪里了,我的有限状态空间实现工作得很好,但当我想用一些分类器(神经网络)来概括它时我遇到麻烦了,什么都不管用。你能帮我解决这个问题吗?@SnurkaBill这有点太多了,对不起。:)