Algorithm 值迭代的收敛性
为什么选择值迭代算法的终止条件 (示例) 在MDP(马尔可夫决策过程)中 ||Ui+1-Ui | |Algorithm 值迭代的收敛性,algorithm,artificial-intelligence,iteration,markov-chains,convergence,Algorithm,Artificial Intelligence,Iteration,Markov Chains,Convergence,为什么选择值迭代算法的终止条件 (示例) 在MDP(马尔可夫决策过程)中 ||Ui+1-Ui | |
Ui+1更新的实用程序向量 误差-算法中使用的误差界 算法中使用的gamma折扣因子 “误差*(1-伽马)/伽马”从何而来? “除以伽马”是因为每一步都被伽马打折了? 但是误差*(1-伽马)?
一个错误有多大?这被称为行李员错误或行李员残差 MDP中的使用见,1993年
POMDP中的使用请参见,1994。您能再解释一下吗,特别是“什么是MDP?”和“您的参数是什么(Ui、gamma、error等)?”我看不到任何关于error*(1-gamma)/gamma终止条件的引用;摘自威廉姆斯和贝尔德的表演界限部分。