Algorithm 值迭代的收敛性

Algorithm 值迭代的收敛性,algorithm,artificial-intelligence,iteration,markov-chains,convergence,Algorithm,Artificial Intelligence,Iteration,Markov Chains,Convergence,为什么选择值迭代算法的终止条件 (示例) 在MDP(马尔可夫决策过程)中 ||Ui+1-Ui | |

为什么选择值迭代算法的终止条件 (示例)

在MDP(马尔可夫决策过程)中

||Ui+1-Ui | | Ui是实用工具的载体
Ui+1更新的实用程序向量

误差-算法中使用的误差界

算法中使用的gamma折扣因子

“误差*(1-伽马)/伽马”从何而来? “除以伽马”是因为每一步都被伽马打折了? 但是误差*(1-伽马)?
一个错误有多大?

这被称为行李员错误或行李员残差

MDP中的使用见,1993年


POMDP中的使用请参见,1994。

您能再解释一下吗,特别是“什么是MDP?”和“您的参数是什么(Ui、gamma、error等)?”我看不到任何关于error*(1-gamma)/gamma终止条件的引用;摘自威廉姆斯和贝尔德的表演界限部分。