Artificial intelligence 部分可观测马尔可夫决策过程最优值函数
我了解POMDP中信念状态是如何更新的。但在政策和价值函数部分,我不知道如何计算V*(T(b,a,o))的值来寻找最优价值函数V*(b)。我在互联网上读了很多资料,但没有人解释如何清楚地计算这个。有人能为我提供一个数学上解决了所有计算的例子吗,或者给我一个数学上清晰的解释 您应该查看关于POMDP的本教程:Artificial intelligence 部分可观测马尔可夫决策过程最优值函数,artificial-intelligence,probability,hidden-markov-models,reinforcement-learning,markov,Artificial Intelligence,Probability,Hidden Markov Models,Reinforcement Learning,Markov,我了解POMDP中信念状态是如何更新的。但在政策和价值函数部分,我不知道如何计算V*(T(b,a,o))的值来寻找最优价值函数V*(b)。我在互联网上读了很多资料,但没有人解释如何清楚地计算这个。有人能为我提供一个数学上解决了所有计算的例子吗,或者给我一个数学上清晰的解释 您应该查看关于POMDP的本教程: 它包括一个关于值迭代的部分,可用于找到最佳策略/值函数。我尝试在这个答案中使用与前面相同的符号。 首先,我重复上所述的值函数: V*(b)是以置信度b为参数的值函数。b包含所有状态s的概
它包括一个关于值迭代的部分,可用于找到最佳策略/值函数。我尝试在这个答案中使用与前面相同的符号。 首先,我重复上所述的值函数: V*(b)是以置信度b为参数的值函数。b包含所有状态s的概率,其总和为1: r(b,a)是对信念b和行动a的奖励,必须使用给定原始奖励函数r(s,a)的每个状态的信念来计算:处于状态s并完成行动a的奖励 我们也可以将函数O写成状态,而不是信念b: 这是观察o给出信念b和行动a的概率。注意O和T是概率函数 最后,函数τ(b,a,o)给出了新的信念状态b'=τ(b,a,o),给出了先前的信念b、动作a和观测o。根据每个状态,我们可以计算新的概率: 现在,新的信念b'可以用于迭代计算:V(τ(b,a,o)) 可通过使用适用的示例来接近最优值函数。然后迭代更新函数,直到差值小于一个小值ε 关于POMDP有更多信息,例如:
- 塞巴斯蒂安·特伦、沃尔夫拉姆·伯加德和迪特尔·福克斯。2005概率机器人学(智能机器人学和自治代理)。麻省理工学院出版社