Artificial intelligence 强化学习中价值函数的计算

Artificial intelligence 强化学习中价值函数的计算,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,有谁能解释一下如何生成下面的值函数,问题和解决方案附在后面,我只是不知道解决方案是如何生成的。非常感谢。 还需要帮助 因为没有其他人尝试过这个问题,我将介绍我对这个问题的理解(免责声明:我不是强化学习方面的专家,我将此作为一个答案发布,因为它太长了,不能作为评论) 可以这样想:例如,当从节点d开始时,随机步行者有50%的机会跳到节点e或节点a。每一次这样的跳跃都会用乘数y(图中的伽马)减少奖励(r)。继续跳跃直到到达目标节点(本例中为f),然后收集奖励r 如果我理解正确,两个较小的3x2正方

有谁能解释一下如何生成下面的值函数,问题和解决方案附在后面,我只是不知道解决方案是如何生成的。非常感谢。


还需要帮助

因为没有其他人尝试过这个问题,我将介绍我对这个问题的理解(免责声明:我不是强化学习方面的专家,我将此作为一个答案发布,因为它太长了,不能作为评论)

可以这样想:例如,当从节点d开始时,随机步行者有50%的机会跳到节点e或节点a。每一次这样的跳跃都会用乘数y(图中的伽马)减少奖励(r)。继续跳跃直到到达目标节点(本例中为f),然后收集奖励r

如果我理解正确,两个较小的3x2正方形表示从每个节点开始时的预期奖励值。现在,很明显,为什么在第一个3x2平方中,每个节点的值都是100:因为y=1,奖励永远不会减少。你可以一直跳来跳去,直到你最终进入奖励节点,然后获得r=100的奖励

然而,在第二个3x2正方形中,每跳一次,奖励就会以0.9的倍数减少。所以,当从平方c开始时,为了得到预期的奖励值,你将从不同路径得到的奖励相加,乘以它们的概率。从c到f有50%的几率,它是一个跳跃,所以你得到r=0.5*0.9^0*100=50。然后是路径c-b-e-f:0.5*(1/3)*(1/3)*0.9^2*100=4.5。然后是c-b-c-f:0.9^2*0.5^2*(1/3)^1*100=6.75。你继续这样做,直到你正在检查的路径的奖励微不足道,然后将所有路径的奖励相加。这将给出相应节点的结果,即50+6.75+4.5+…=76

我想编程的方法是使用修改后的dfs/bfs来探索长度为N或更小的所有路径,并将这些路径的奖励相加(选择的N使0.9^N很小)


再一次,把这个和一粒盐一起吃;我不是强化学习方面的专家。

由于没有其他人尝试过,我将介绍我对这个问题的理解(免责声明:我不是强化学习方面的专家,我将此作为一个答案发布,因为它太长,无法作为评论)

可以这样想:例如,当从节点d开始时,随机步行者有50%的机会跳到节点e或节点a。每一次这样的跳跃都会用乘数y(图中的伽马)减少奖励(r)。继续跳跃直到到达目标节点(本例中为f),然后收集奖励r

如果我理解正确,两个较小的3x2正方形表示从每个节点开始时的预期奖励值。现在,很明显,为什么在第一个3x2平方中,每个节点的值都是100:因为y=1,奖励永远不会减少。你可以一直跳来跳去,直到你最终进入奖励节点,然后获得r=100的奖励

然而,在第二个3x2正方形中,每跳一次,奖励就会以0.9的倍数减少。所以,当从平方c开始时,为了得到预期的奖励值,你将从不同路径得到的奖励相加,乘以它们的概率。从c到f有50%的几率,它是一个跳跃,所以你得到r=0.5*0.9^0*100=50。然后是路径c-b-e-f:0.5*(1/3)*(1/3)*0.9^2*100=4.5。然后是c-b-c-f:0.9^2*0.5^2*(1/3)^1*100=6.75。你继续这样做,直到你正在检查的路径的奖励微不足道,然后将所有路径的奖励相加。这将给出相应节点的结果,即50+6.75+4.5+…=76

我想编程的方法是使用修改后的dfs/bfs来探索长度为N或更小的所有路径,并将这些路径的奖励相加(选择的N使0.9^N很小)


再一次,把这个和一粒盐一起吃;我不是强化学习方面的专家。

我喜欢这个问题,但我不太喜欢你的问题。感觉上你想让我们为你做所有的工作。不,西蒙。这不是家庭作业,而是我课程中幻灯片的内容。只是不知道结果是如何产生的。我喜欢这个问题,但我不太喜欢你的问题。感觉上你想让我们为你做所有的工作。不,西蒙。这不是家庭作业,而是我课程中幻灯片的内容。只是不知道结果是如何产生的。