Algorithm 值迭代的收敛性_Algorithm_Artificial Intelligence_Iteration_Markov Chains_Convergence

Algorithm 值迭代的收敛性

algorithm artificial-intelligence

Algorithm 值迭代的收敛性,algorithm,artificial-intelligence,iteration,markov-chains,convergence,Algorithm,Artificial Intelligence,Iteration,Markov Chains,Convergence,为什么选择值迭代算法的终止条件（示例）在MDP（马尔可夫决策过程）中 ||Ui+1-Ui | |

为什么选择值迭代算法的终止条件（示例）

在MDP（马尔可夫决策过程）中

||Ui+1-Ui | | Ui是实用工具的载体
Ui+1更新的实用程序向量

误差-算法中使用的误差界

算法中使用的gamma折扣因子

“误差*（1-伽马）/伽马”从何而来？ “除以伽马”是因为每一步都被伽马打折了？但是误差*（1-伽马）？

一个错误有多大？

这被称为行李员错误或行李员残差

MDP中的使用见，1993年

POMDP中的使用请参见，1994。

您能再解释一下吗，特别是“什么是MDP？”和“您的参数是什么（Ui、gamma、error等）？”我看不到任何关于error*（1-gamma）/gamma终止条件的引用；摘自威廉姆斯和贝尔德的表演界限部分。