Artificial intelligence Qlearning和奖励索引

Artificial intelligence Qlearning和奖励索引,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,我的问题可能很简单,但我不确定众所周知的Q-学习方程中的时间指数 方程式: Qt+1(St,At)=Qt(St,At)+alpha*(Rt+1+伽马*max_A(Qt(St+1,A))-Qt(St,At)) 我不明白Rt+1代表什么。简单的例子: 我们在时间T处于状态X 基于epsilon贪婪选择新动作 应用操作 我们在时间T+1处于状态Y (现在我们需要更新状态Y的Q值)奖励是从动作X->Y(?)计算出来的,还是在评估所有下一个Q值(max_A(Q(Y,A))后从动作Y->Z计算出来的 重复1

我的问题可能很简单,但我不确定众所周知的Q-学习方程中的时间指数

方程式: Qt+1(St,At)=Qt(St,At)+alpha*(Rt+1+伽马*max_A(Qt(St+1,A))-Qt(St,At))

我不明白Rt+1代表什么。简单的例子:

  • 我们在时间T处于状态X
  • 基于epsilon贪婪选择新动作
  • 应用操作
  • 我们在时间T+1处于状态Y
  • (现在我们需要更新状态Y的Q值)奖励是从动作X->Y(?)计算出来的,还是在评估所有下一个Q值(max_A(Q(Y,A))后从动作Y->Z计算出来的
  • 重复1次

  • 在上一轮中,您处于s(t)状态并采取了行动a(t)。现在你处于状态s(t+1),接受奖励r(t+1)并(贪婪地)选择动作a(t+1)。将上一个动作的值调整为新动作的折扣值和奖励的总和

    您的示例中有一些误解:

  • 实际上,您正在更新操作,而不是状态值
  • 您正在更新状态为X而不是Y的操作的值
  • 在状态X采取的具体行动可能会导致不同的状态,而不仅仅是Y,因此不存在X→Y动作

  • 在上一轮中,您处于s(t)状态并采取了行动a(t)。现在你处于状态s(t+1),接受奖励r(t+1)并(贪婪地)选择动作a(t+1)。将上一个动作的值调整为新动作的折扣值和奖励的总和

    您的示例中有一些误解:

  • 实际上,您正在更新操作,而不是状态值
  • 您正在更新状态为X而不是Y的操作的值
  • 在状态X采取的具体行动可能会导致不同的状态,而不仅仅是Y,因此不存在X→Y动作

  • 在上一轮中,您处于s(t)状态并采取了行动a(t)。现在你处于状态s(t+1),接受奖励r(t+1)并(贪婪地)选择动作a(t+1)。将上一个动作的值调整为新动作的折扣值和奖励的总和

    您的示例中有一些误解:

  • 实际上,您正在更新操作,而不是状态值
  • 您正在更新状态为X而不是Y的操作的值
  • 在状态X采取的具体行动可能会导致不同的状态,而不仅仅是Y,因此不存在X→Y动作

  • 在上一轮中,您处于s(t)状态并采取了行动a(t)。现在你处于状态s(t+1),接受奖励r(t+1)并(贪婪地)选择动作a(t+1)。将上一个动作的值调整为新动作的折扣值和奖励的总和

    您的示例中有一些误解:

  • 实际上,您正在更新操作,而不是状态值
  • 您正在更新状态为X而不是Y的操作的值
  • 在状态X采取的具体行动可能会导致不同的状态,而不仅仅是Y,因此不存在X→Y动作

  • 好的,就一个问题。当更新Q(s,a)时,我采用max_a Q(s',a)(然后贪婪地选择动作形式s'),对吗?@SnurkaBill
    a(t+1)=max_a(s(t+1),a)
    是动作的贪婪选择好吧,我知道问题出在哪里了,我的有限状态空间实现工作得很好,但当我想用一些分类器(神经网络)来概括它时我遇到麻烦了,什么都不管用。你能帮我解决这个问题吗?@SnurkaBill这有点太多了,对不起。:)好的,就一个问题。当更新Q(s,a)时,我采用max_a Q(s',a)(然后贪婪地选择动作形式s'),对吗?@SnurkaBill
    a(t+1)=max_a(s(t+1),a)
    是动作的贪婪选择好吧,我知道问题出在哪里了,我的有限状态空间实现工作得很好,但当我想用一些分类器(神经网络)来概括它时我遇到麻烦了,什么都不管用。你能帮我解决这个问题吗?@SnurkaBill这有点太多了,对不起。:)好的,就一个问题。当更新Q(s,a)时,我采用max_a Q(s',a)(然后贪婪地选择动作形式s'),对吗?@SnurkaBill
    a(t+1)=max_a(s(t+1),a)
    是动作的贪婪选择好吧,我知道问题出在哪里了,我的有限状态空间实现工作得很好,但当我想用一些分类器(神经网络)来概括它时我遇到麻烦了,什么都不管用。你能帮我解决这个问题吗?@SnurkaBill这有点太多了,对不起。:)好的,就一个问题。当更新Q(s,a)时,我采用max_a Q(s',a)(然后贪婪地选择动作形式s'),对吗?@SnurkaBill
    a(t+1)=max_a(s(t+1),a)
    是动作的贪婪选择好吧,我知道问题出在哪里了,我的有限状态空间实现工作得很好,但当我想用一些分类器(神经网络)来概括它时我遇到麻烦了,什么都不管用。你能帮我解决这个问题吗?@SnurkaBill这有点太多了,对不起。:)