Artificial intelligence 网格世界中策略迭代背后的直觉

Artificial intelligence 网格世界中策略迭代背后的直觉,artificial-intelligence,reinforcement-learning,markov,Artificial Intelligence,Reinforcement Learning,Markov,我应该提出一个MDP代理,它使用策略迭代和值迭代进行分配,并将其性能与状态的效用值进行比较 既然MDP代理知道转移概率和回报,那么它如何知道应该采取哪些行动 据我所知,MDP代理将执行策略迭代,并在给定策略的情况下,计算其在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的 有人能提供一些关于策略迭代如何工作的直觉吗?假设您已经看到了策略迭代和值迭代算法是什么,代理只需通过为每个状态选择具有最高值的操作来构建新策略 一个动作的价值是达到下一状态的概率之和*(下一状态的价值+转换的回报)超过

我应该提出一个MDP代理,它使用策略迭代和值迭代进行分配,并将其性能与状态的效用值进行比较

既然MDP代理知道转移概率和回报,那么它如何知道应该采取哪些行动

据我所知,MDP代理将执行策略迭代,并在给定策略的情况下,计算其在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的


有人能提供一些关于策略迭代如何工作的直觉吗?

假设您已经看到了策略迭代和值迭代算法是什么,代理只需通过为每个状态选择具有最高值的操作来构建新策略


一个动作的价值是达到下一状态的概率之和*(下一状态的价值+转换的回报)超过该动作所有可能的下一状态。

因为这是一个家庭作业,你可能想买一本关于马尔可夫决策问题的书或一些教程。Russel和Norvig的书《人工智能现代方法》第17章给出了政策迭代算法实施的永恒答案: