Machine learning 理解强化学习MDP的Q(s,a)公式时的困惑?

Machine learning 理解强化学习MDP的Q(s,a)公式时的困惑?,machine-learning,artificial-intelligence,reinforcement-learning,markov-chains,markov-decision-process,Machine Learning,Artificial Intelligence,Reinforcement Learning,Markov Chains,Markov Decision Process,我试图理解为什么策略改进定理可以应用于epsilon贪婪策略 证明从数学定义开始- 我对证据的第一行感到困惑 这个方程是Q(s,a)的贝尔曼期望方程,而V(s)和Q(s,a)遵循这个关系- 那么,我们怎样才能得出第一行证明呢?最优控制问题是在20世纪50年代首次提出的。问题是设计一个控制器来最大化或最小化目标函数。Richard Bellman通过引入Bellman方程来解决该最优控制问题: 其价值等于奖励的折扣金额。如果我们迈出第一步,我们会得到以下结果: 随后,经典的强化学习是基于

我试图理解为什么策略改进定理可以应用于epsilon贪婪策略

证明从数学定义开始-

我对证据的第一行感到困惑

这个方程是Q(s,a)的贝尔曼期望方程,而V(s)和Q(s,a)遵循这个关系-


那么,我们怎样才能得出第一行证明呢?

最优控制问题是在20世纪50年代首次提出的。问题是设计一个控制器来最大化或最小化目标函数。Richard Bellman通过引入Bellman方程来解决该最优控制问题:

其价值等于奖励的折扣金额。如果我们迈出第一步,我们会得到以下结果:

随后,经典的强化学习是基于马尔可夫决策过程的,并且假设所有的状态转换都是已知的。因此,方程式如下所示:

也就是说,总和等于从该状态开始的所有可能转换的总和乘以实现新状态的奖励

上述方程式以数值形式书写。有时,我们希望价值也是行动的一个函数,从而创造行动价值。上述方程到作用值形式的转换为:

这个方程最大的问题是,在现实生活中,过渡概率实际上是未知的。除非问题非常简单,否则不可能知道每个状态的转移概率。为了解决这个问题,我们通常只取未来折扣部分的最大值。也就是说,我们假设我们在未来的行为是最佳的,而不是对所有可能的情况进行平均

然而,在真实场景中,环境可能是高度随机的。因此,在任何状态下,动作值函数的最佳估计都只是一个估计。后概率情形是期望值。因此,给你:

在你的等式中,奖励符号是t+1。这主要是因为不同的解释。上面的证明仍然适用于你的符号。它只是简单地说,你不会知道你的奖励,直到你得到你的下一个采样时间