Artificial intelligence 马尔可夫决策过程&x27；问题_Artificial Intelligence_Markov

Artificial intelligence 马尔可夫决策过程&x27；问题

artificial-intelligence

Artificial intelligence 马尔可夫决策过程&x27；问题,artificial-intelligence,markov,Artificial Intelligence,Markov,我对这里的一些观点有点困惑：如果说他尝试某个动作的70%时间都会成功，这意味着什么？这是否意味着每次他尝试执行动作A时，有70%的时间会执行动作A，另外30%的时间会执行导致相同状态的动作，或者只是他总是执行动作A，但只有30%的时间他不执行？我希望我能说清楚：( 怎么可能有几个连续的州具有相同的效用？理论上，效用不应该总是减少，离有奖励的州越远只知道我上面提供的信息，有没有可能推断出贴现系数（伽马）？如果是，如何确定有没有可能计算出对国家的奖励？如何（广告1）可能这并不是说机器人

我对这里的一些观点有点困惑：

如果说他尝试某个动作的70%时间都会成功，这意味着什么？这是否意味着每次他尝试执行动作A时，有70%的时间会执行动作A，另外30%的时间会执行导致相同状态的动作，或者只是他总是执行动作A，但只有30%的时间他不执行？我希望我能说清楚：(

怎么可能有几个连续的州具有相同的效用？理论上，效用不应该总是减少，离有奖励的州越远

只知道我上面提供的信息，有没有可能推断出贴现系数（伽马）？如果是，如何确定

有没有可能计算出对国家的奖励？如何

（广告1）可能这并不是说机器人总是要移动——也就是说，这30%是“啊，现在我休息了一点”或“根本没有移动的能力”

处理大多数MDP问题有一种模式，但我想你可能在问题描述中遗漏了一些信息，最有可能的是，它与你试图达到的状态有关，或者与一集的结束方式有关（如果你跑出了网格边缘会发生什么）。我已经尽了最大的努力回答了你们的问题，但我已经为我用来处理这类问题的过程附上了一本入门书

首先，效用是一个相当抽象的指标，衡量你在给定状态下想要达到的程度。即使使用简单的启发式方法（欧几里德距离或曼哈顿距离）测量效用，也绝对可能有两个效用相等的状态。在这种情况下，我假设效用值和报酬是可互换的

从长远来看，这类问题的目标往往是，如何最大限度地实现预期（长期）回报？学习率gamma控制着你对当前状态的重视程度，而不是你想要结束的状态。实际上，你可以把gamma看作是一个光谱，从“在这个时间段内做对我最有利的事情”到另一个极端“探索我所有的选择，回到最佳选择”。萨顿和巴托在这本书中对这是如何运作的有一些很好的了解

在开始之前，回顾问题，确保你能自信地回答以下问题

什么是国家？有多少州

什么是行动？有多少个动作

如果您从状态u开始，并应用动作a，则达到新状态v的概率是多少

那么问题的答案是什么

状态是一个向量（x，y）。网格是5乘5，所以有25个州

有四种可能的动作，{E，N，S，W}

应用适当动作后成功到达相邻状态的概率为0.7，不移动的概率（保持在相同状态的概率为0.3）。假设（0,0）是左上角单元格，（4,4）是右下角单元格，下表显示了所有可能转换的一小部分

起始状态动作终态概率 --------------------------------------------------- （0,0）E（0,0）0.3 （0,0）E（1,0）0.7 （0,0）E（2,0）0 ... （0,0）E（0,1）0 ... （0,0）E（4,4）0 （0,0）N（0,0）0.3 ... （4,4）W（3,4）0.7 （4,4）W（4,4）0.3 我们如何检查这对这个问题是否有意义

检查表中是否有适当数量的条目。在5乘5的网格上，有25个状态和4个操作，因此该表应该有100个条目

检查以确保对于启动状态/操作对，只有两个条目具有非零发生概率

编辑。回答向目标状态转移概率的请求。下面的符号假定

v是最终状态
u是源状态
a是动作，如果没有提及，则暗示所应用的动作不相关

我将这个问题表述为一个有限视界马尔可夫决策过程，并通过策略迭代来解决它。在每个迭代的右侧，有一个颜色编码的网格表示每个状态的建议操作以及原始奖励网格/矩阵

在第4阶段审查最终政策/战略。这符合你的直觉吗

那么我的转移函数是一个只有一个值的向量？T（s，a，s'）=（1.0）？与我最初的假设相反，它是T（s，a，s'）=（0.7，0.3），当他确实移动时是第一个坐标，当他停留时是第二个坐标？为什么是1.0？我更喜欢这种语法：P（s’| s）=0.7，P（s | s）=0.3，其中s’=s、那么，您将如何定义到（粗体）所选状态的转换函数呢？我编辑了我的原始帖子，其中包含了这个问题的答案，您所谓的学习率/gamma，我知道它的名称是折扣系数/lambda。 Start State Action Final State Probability --------------------------------------------------- (0,0) E (0,0) 0.3 (0,0) E (1,0) 0.7 (0,0) E (2,0) 0 ... (0,0) E (0,1) 0 ... (0,0) E (4,4) 0 (0,0) N (0,0) 0.3 ... (4,4) W (3,4) 0.7 (4,4) W (4,4) 0.3 P( v=(3,3) | u =(2,3), a=E ) = 0.7 P( v=(3,3) | u =(4,3), a=W ) = 0.7 P( v=(3,3) | u =(3,2), a=N ) = 0.7 P( v=(3,3) | u =(3,4), a=S ) = 0.7 P( v=(3,3) | u =(3,3) ) = 0.3