Artificial intelligence 马尔可夫决策过程&x27;问题
我对这里的一些观点有点困惑:Artificial intelligence 马尔可夫决策过程&x27;问题,artificial-intelligence,markov,Artificial Intelligence,Markov,我对这里的一些观点有点困惑: 如果说他尝试某个动作的70%时间都会成功,这意味着什么?这是否意味着每次他尝试执行动作A时,有70%的时间会执行动作A,另外30%的时间会执行导致相同状态的动作,或者只是他总是执行动作A,但只有30%的时间他不执行?我希望我能说清楚:( 怎么可能有几个连续的州具有相同的效用?理论上,效用不应该总是减少,离有奖励的州越远 只知道我上面提供的信息, 有没有可能推断出 贴现系数(伽马)?如果是,如何确定 有没有可能计算出 对国家的奖励?如何 (广告1)可能这并不是说机器人
(广告1)可能这并不是说机器人总是要移动——也就是说,这30%是“啊,现在我休息了一点”或“根本没有移动的能力”处理大多数MDP问题有一种模式,但我想你可能在问题描述中遗漏了一些信息,最有可能的是,它与你试图达到的状态有关,或者与一集的结束方式有关(如果你跑出了网格边缘会发生什么)。我已经尽了最大的努力回答了你们的问题,但我已经为我用来处理这类问题的过程附上了一本入门书 首先,效用是一个相当抽象的指标,衡量你在给定状态下想要达到的程度。即使使用简单的启发式方法(欧几里德距离或曼哈顿距离)测量效用,也绝对可能有两个效用相等的状态。在这种情况下,我假设效用值和报酬是可互换的 从长远来看,这类问题的目标往往是,如何最大限度地实现预期(长期)回报?学习率gamma控制着你对当前状态的重视程度,而不是你想要结束的状态。实际上,你可以把gamma看作是一个光谱,从“在这个时间段内做对我最有利的事情”到另一个极端“探索我所有的选择,回到最佳选择”。萨顿和巴托在这本书中对这是如何运作的有一些很好的了解
在开始之前,回顾问题,确保你能自信地回答以下问题
编辑。回答向目标状态转移概率的请求。下面的符号假定
- v是最终状态
- u是源状态
- a是动作,如果没有提及,则暗示所应用的动作不相关
我将这个问题表述为一个有限视界马尔可夫决策过程,并通过策略迭代来解决它。在每个迭代的右侧,有一个颜色编码的网格表示每个状态的建议操作以及原始奖励网格/矩阵 在第4阶段审查最终政策/战略。这符合你的直觉吗
那么我的转移函数是一个只有一个值的向量?T(s,a,s')=(1.0)?与我最初的假设相反,它是T(s,a,s')=(0.7,0.3),当他确实移动时是第一个坐标,当他停留时是第二个坐标?为什么是1.0?我更喜欢这种语法:P(s’| s)=0.7,P(s | s)=0.3,其中s’=s、 那么,您将如何定义到(粗体)所选状态的转换函数呢?我编辑了我的原始帖子,其中包含了这个问题的答案,您所谓的学习率/gamma,我知道它的名称是折扣系数/lambda。 Start State Action Final State Probability --------------------------------------------------- (0,0) E (0,0) 0.3 (0,0) E (1,0) 0.7 (0,0) E (2,0) 0 ... (0,0) E (0,1) 0 ... (0,0) E (4,4) 0 (0,0) N (0,0) 0.3 ... (4,4) W (3,4) 0.7 (4,4) W (4,4) 0.3 P( v=(3,3) | u =(2,3), a=E ) = 0.7 P( v=(3,3) | u =(4,3), a=W ) = 0.7 P( v=(3,3) | u =(3,2), a=N ) = 0.7 P( v=(3,3) | u =(3,4), a=S ) = 0.7 P( v=(3,3) | u =(3,3) ) = 0.3