Artificial intelligence 部分可观测马尔可夫决策过程最优值函数

Artificial intelligence 部分可观测马尔可夫决策过程最优值函数,artificial-intelligence,probability,hidden-markov-models,reinforcement-learning,markov,Artificial Intelligence,Probability,Hidden Markov Models,Reinforcement Learning,Markov,我了解POMDP中信念状态是如何更新的。但在政策和价值函数部分,我不知道如何计算V*(T(b,a,o))的值来寻找最优价值函数V*(b)。我在互联网上读了很多资料,但没有人解释如何清楚地计算这个。有人能为我提供一个数学上解决了所有计算的例子吗,或者给我一个数学上清晰的解释 您应该查看关于POMDP的本教程: 它包括一个关于值迭代的部分,可用于找到最佳策略/值函数。我尝试在这个答案中使用与前面相同的符号。 首先,我重复上所述的值函数: V*(b)是以置信度b为参数的值函数。b包含所有状态s的概

我了解POMDP中信念状态是如何更新的。但在政策和价值函数部分,我不知道如何计算V*(T(b,a,o))的值来寻找最优价值函数V*(b)。我在互联网上读了很多资料,但没有人解释如何清楚地计算这个。有人能为我提供一个数学上解决了所有计算的例子吗,或者给我一个数学上清晰的解释

您应该查看关于POMDP的本教程:


它包括一个关于值迭代的部分,可用于找到最佳策略/值函数。

我尝试在这个答案中使用与前面相同的符号。 首先,我重复上所述的值函数:

V*(b)是以置信度b为参数的值函数。b包含所有状态s的概率,其总和为1:

r(b,a)是对信念b和行动a的奖励,必须使用给定原始奖励函数r(s,a)的每个状态的信念来计算:处于状态s并完成行动a的奖励

我们也可以将函数O写成状态,而不是信念b:

这是观察o给出信念b和行动a的概率。注意O和T是概率函数

最后,函数τ(b,a,o)给出了新的信念状态b'=τ(b,a,o),给出了先前的信念b、动作a和观测o。根据每个状态,我们可以计算新的概率:

现在,新的信念b'可以用于迭代计算:V(τ(b,a,o))

可通过使用适用的示例来接近最优值函数。然后迭代更新函数,直到差值小于一个小值ε

关于POMDP有更多信息,例如:

  • 塞巴斯蒂安·特伦、沃尔夫拉姆·伯加德和迪特尔·福克斯。2005概率机器人学(智能机器人学和自治代理)。麻省理工学院出版社

该链接很好地解释了价值迭代的工作原理。但它没有提供足够的细节,说明如何计算价值。它假设已经为给定的动作观察计算了一个值,并且没有提供关于我们如何在该信念状态下获得该值的详细信息。