Artificial intelligence 网格世界中策略迭代背后的直觉_Artificial Intelligence_Reinforcement Learning_Markov

Artificial intelligence 网格世界中策略迭代背后的直觉

artificial-intelligence

Artificial intelligence 网格世界中策略迭代背后的直觉,artificial-intelligence,reinforcement-learning,markov,Artificial Intelligence,Reinforcement Learning,Markov,我应该提出一个MDP代理，它使用策略迭代和值迭代进行分配，并将其性能与状态的效用值进行比较既然MDP代理知道转移概率和回报，那么它如何知道应该采取哪些行动据我所知，MDP代理将执行策略迭代，并在给定策略的情况下，计算其在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的有人能提供一些关于策略迭代如何工作的直觉吗？假设您已经看到了策略迭代和值迭代算法是什么，代理只需通过为每个状态选择具有最高值的操作来构建新策略一个动作的价值是达到下一状态的概率之和*（下一状态的价值+转换的回报）超过

我应该提出一个MDP代理，它使用策略迭代和值迭代进行分配，并将其性能与状态的效用值进行比较

既然MDP代理知道转移概率和回报，那么它如何知道应该采取哪些行动

据我所知，MDP代理将执行策略迭代，并在给定策略的情况下，计算其在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的

有人能提供一些关于策略迭代如何工作的直觉吗？

假设您已经看到了策略迭代和值迭代算法是什么，代理只需通过为每个状态选择具有最高值的操作来构建新策略

一个动作的价值是达到下一状态的概率之和*（下一状态的价值+转换的回报）超过该动作所有可能的下一状态。

因为这是一个家庭作业，你可能想买一本关于马尔可夫决策问题的书或一些教程。Russel和Norvig的书《人工智能现代方法》第17章给出了政策迭代算法实施的永恒答案：