Artificial intelligence 部分可观测马尔可夫决策过程最优值函数_Artificial Intelligence_Probability_Hidden Markov Models_Reinforcement Learning_Markov

Artificial intelligence 部分可观测马尔可夫决策过程最优值函数

artificial-intelligence

Artificial intelligence 部分可观测马尔可夫决策过程最优值函数,artificial-intelligence,probability,hidden-markov-models,reinforcement-learning,markov,Artificial Intelligence,Probability,Hidden Markov Models,Reinforcement Learning,Markov,我了解POMDP中信念状态是如何更新的。但在政策和价值函数部分，我不知道如何计算V*（T（b，a，o））的值来寻找最优价值函数V*（b）。我在互联网上读了很多资料，但没有人解释如何清楚地计算这个。有人能为我提供一个数学上解决了所有计算的例子吗，或者给我一个数学上清晰的解释您应该查看关于POMDP的本教程：它包括一个关于值迭代的部分，可用于找到最佳策略/值函数。我尝试在这个答案中使用与前面相同的符号。首先，我重复上所述的值函数： V*（b）是以置信度b为参数的值函数。b包含所有状态s的概

我了解POMDP中信念状态是如何更新的。但在政策和价值函数部分，我不知道如何计算V*（T（b，a，o））的值来寻找最优价值函数V*（b）。我在互联网上读了很多资料，但没有人解释如何清楚地计算这个。有人能为我提供一个数学上解决了所有计算的例子吗，或者给我一个数学上清晰的解释

您应该查看关于POMDP的本教程：

它包括一个关于值迭代的部分，可用于找到最佳策略/值函数。

我尝试在这个答案中使用与前面相同的符号。首先，我重复上所述的值函数：

V*（b）是以置信度b为参数的值函数。b包含所有状态s的概率，其总和为1：

r（b，a）是对信念b和行动a的奖励，必须使用给定原始奖励函数r（s，a）的每个状态的信念来计算：处于状态s并完成行动a的奖励

我们也可以将函数O写成状态，而不是信念b：

这是观察o给出信念b和行动a的概率。注意O和T是概率函数

最后，函数τ（b，a，o）给出了新的信念状态b'=τ（b，a，o），给出了先前的信念b、动作a和观测o。根据每个状态，我们可以计算新的概率：

现在，新的信念b'可以用于迭代计算：V（τ（b，a，o））

可通过使用适用的示例来接近最优值函数。然后迭代更新函数，直到差值小于一个小值ε

关于POMDP有更多信息，例如：

塞巴斯蒂安·特伦、沃尔夫拉姆·伯加德和迪特尔·福克斯。2005概率机器人学（智能机器人学和自治代理）。麻省理工学院出版社

该链接很好地解释了价值迭代的工作原理。但它没有提供足够的细节，说明如何计算价值。它假设已经为给定的动作观察计算了一个值，并且没有提供关于我们如何在该信念状态下获得该值的详细信息。