Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/apache/8.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Artificial intelligence 马尔可夫决策过程&x27;问题_Artificial Intelligence_Markov - Fatal编程技术网

Artificial intelligence 马尔可夫决策过程&x27;问题

Artificial intelligence 马尔可夫决策过程&x27;问题,artificial-intelligence,markov,Artificial Intelligence,Markov,我对这里的一些观点有点困惑: 如果说他尝试某个动作的70%时间都会成功,这意味着什么?这是否意味着每次他尝试执行动作A时,有70%的时间会执行动作A,另外30%的时间会执行导致相同状态的动作,或者只是他总是执行动作A,但只有30%的时间他不执行?我希望我能说清楚:( 怎么可能有几个连续的州具有相同的效用?理论上,效用不应该总是减少,离有奖励的州越远 只知道我上面提供的信息, 有没有可能推断出 贴现系数(伽马)?如果是,如何确定 有没有可能计算出 对国家的奖励?如何 (广告1)可能这并不是说机器人

我对这里的一些观点有点困惑:

  • 如果说他尝试某个动作的70%时间都会成功,这意味着什么?这是否意味着每次他尝试执行动作A时,有70%的时间会执行动作A,另外30%的时间会执行导致相同状态的动作,或者只是他总是执行动作A,但只有30%的时间他不执行?我希望我能说清楚:(
  • 怎么可能有几个连续的州具有相同的效用?理论上,效用不应该总是减少,离有奖励的州越远
  • 只知道我上面提供的信息, 有没有可能推断出 贴现系数(伽马)?如果是,如何确定
  • 有没有可能计算出 对国家的奖励?如何

  • (广告1)可能这并不是说机器人总是要移动——也就是说,这30%是“啊,现在我休息了一点”或“根本没有移动的能力”

    处理大多数MDP问题有一种模式,但我想你可能在问题描述中遗漏了一些信息,最有可能的是,它与你试图达到的状态有关,或者与一集的结束方式有关(如果你跑出了网格边缘会发生什么)。我已经尽了最大的努力回答了你们的问题,但我已经为我用来处理这类问题的过程附上了一本入门书

    首先,效用是一个相当抽象的指标,衡量你在给定状态下想要达到的程度。即使使用简单的启发式方法(欧几里德距离或曼哈顿距离)测量效用,也绝对可能有两个效用相等的状态。在这种情况下,我假设效用值和报酬是可互换的

    从长远来看,这类问题的目标往往是,如何最大限度地实现预期(长期)回报?学习率gamma控制着你对当前状态的重视程度,而不是你想要结束的状态。实际上,你可以把gamma看作是一个光谱,从“在这个时间段内做对我最有利的事情”到另一个极端“探索我所有的选择,回到最佳选择”。萨顿和巴托在这本书中对这是如何运作的有一些很好的了解


    在开始之前,回顾问题,确保你能自信地回答以下问题

  • 什么是国家?有多少州
  • 什么是行动?有多少个动作
  • 如果您从状态u开始,并应用动作a,则达到新状态v的概率是多少
  • 那么问题的答案是什么

  • 状态是一个向量(x,y)。网格是5乘5,所以有25个州
  • 有四种可能的动作,{E,N,S,W}
  • 应用适当动作后成功到达相邻状态的概率为0.7,不移动的概率(保持在相同状态的概率为0.3)。假设(0,0)是左上角单元格,(4,4)是右下角单元格,下表显示了所有可能转换的一小部分
  • 起始状态动作终态概率 --------------------------------------------------- (0,0)E(0,0)0.3 (0,0)E(1,0)0.7 (0,0)E(2,0)0 ... (0,0)E(0,1)0 ... (0,0)E(4,4)0 (0,0)N(0,0)0.3 ... (4,4)W(3,4)0.7 (4,4)W(4,4)0.3 我们如何检查这对这个问题是否有意义

  • 检查表中是否有适当数量的条目。在5乘5的网格上,有25个状态和4个操作,因此该表应该有100个条目
  • 检查以确保对于启动状态/操作对,只有两个条目具有非零发生概率

  • 编辑。回答向目标状态转移概率的请求。下面的符号假定

    • v是最终状态
    • u是源状态
    • a是动作,如果没有提及,则暗示所应用的动作不相关
    P(v=(3,3)| u=(2,3),a=E=0.7 P(v=(3,3)| u=(4,3),a=W=0.7 P(v=(3,3)| u=(3,2),a=N=0.7 P(v=(3,3)| u=(3,4),a=S=0.7 P(v=(3,3)| u=(3,3))=0.3
    我将这个问题表述为一个有限视界马尔可夫决策过程,并通过策略迭代来解决它。在每个迭代的右侧,有一个颜色编码的网格表示每个状态的建议操作以及原始奖励网格/矩阵

    在第4阶段审查最终政策/战略。这符合你的直觉吗


    那么我的转移函数是一个只有一个值的向量?T(s,a,s')=(1.0)?与我最初的假设相反,它是T(s,a,s')=(0.7,0.3),当他确实移动时是第一个坐标,当他停留时是第二个坐标?为什么是1.0?我更喜欢这种语法:P(s’| s)=0.7,P(s | s)=0.3,其中s’=s、 那么,您将如何定义到(粗体)所选状态的转换函数呢?我编辑了我的原始帖子,其中包含了这个问题的答案,您所谓的学习率/gamma,我知道它的名称是折扣系数/lambda。 Start State Action Final State Probability --------------------------------------------------- (0,0) E (0,0) 0.3 (0,0) E (1,0) 0.7 (0,0) E (2,0) 0 ... (0,0) E (0,1) 0 ... (0,0) E (4,4) 0 (0,0) N (0,0) 0.3 ... (4,4) W (3,4) 0.7 (4,4) W (4,4) 0.3 P( v=(3,3) | u =(2,3), a=E ) = 0.7 P( v=(3,3) | u =(4,3), a=W ) = 0.7 P( v=(3,3) | u =(3,2), a=N ) = 0.7 P( v=(3,3) | u =(3,4), a=S ) = 0.7 P( v=(3,3) | u =(3,3) ) = 0.3