Artificial intelligence “我们所说的”是什么意思;“可控行动”;在POMDP中?

Artificial intelligence “我们所说的”是什么意思;“可控行动”;在POMDP中?,artificial-intelligence,probability,reinforcement-learning,expert-system,markov-decision-process,Artificial Intelligence,Probability,Reinforcement Learning,Expert System,Markov Decision Process,我有一些关于POMDP的问题 在部分可观测的马尔可夫决策过程中,我们所说的可控行为是什么意思?或者在隐马尔可夫状态下没有可控动作 当通过值或策略迭代计算策略时,我们是否可以说POMDP是一个专家系统(因为我们对环境建模)?然而,当使用Q-learning时,它在智能或适应不断变化的环境方面是一个更灵活的系统 行动 可控行动是决策者做出选择的结果。在经典的POMDP老虎问题中,有一只老虎藏在两扇门中的一扇门后面。在每个时间步,决策者可以选择倾听或打开其中一扇门。此场景中的操作是{侦听,打开左门,打

我有一些关于POMDP的问题

  • 在部分可观测的马尔可夫决策过程中,我们所说的可控行为是什么意思?或者在隐马尔可夫状态下没有可控动作

  • 当通过值或策略迭代计算策略时,我们是否可以说POMDP是一个专家系统(因为我们对环境建模)?然而,当使用Q-learning时,它在智能或适应不断变化的环境方面是一个更灵活的系统


  • 行动

    可控行动是决策者做出选择的结果。在经典的POMDP老虎问题中,有一只老虎藏在两扇门中的一扇门后面。在每个时间步,决策者可以选择倾听或打开其中一扇门。此场景中的操作是{侦听,打开左门,打开右门}。从一个状态到另一个状态的转换函数取决于前一个状态和选择的操作

    在隐马尔可夫模型(HMM)中,决策者没有任何行动。在老虎问题的背景下,这意味着参与者只能在不开门的情况下倾听。在这种情况下,转换函数只取决于前一个状态,因为没有操作

    有关老虎问题的更多详情,请参阅Kaelbling Littman和Cassandra的《1998》第5.1节。本节还提供了更多的介绍性演练

    适应性

    你的问题中的基本直觉是正确的,但可以加以改进。POMDP是一类模型,而Q-学习是一种求解技术。您的问题的基本区别在于基于模型的方法和无模型的方法。POMDP是基于模型的,尽管部分可观测性允许额外的不确定性。强化学习可以应用于无模型环境中,使用Q-学习。对于非平稳问题,无模型方法将更加灵活。也就是说,根据问题的复杂性,您可以将非平稳性合并到模型本身中,并将其视为MDP

    在回答这个问题时,我们对这些非平稳模型的权衡进行了非常深入的讨论

    最后,POMDP被认为是专家系统是正确的。Mazumdar等人(2017)将马尔可夫决策过程(MDP)视为专家系统