Artificial intelligence 强化学习中价值函数的计算_Artificial Intelligence_Reinforcement Learning

Artificial intelligence 强化学习中价值函数的计算

artificial-intelligence

Artificial intelligence 强化学习中价值函数的计算,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,有谁能解释一下如何生成下面的值函数，问题和解决方案附在后面，我只是不知道解决方案是如何生成的。非常感谢。还需要帮助因为没有其他人尝试过这个问题，我将介绍我对这个问题的理解（免责声明：我不是强化学习方面的专家，我将此作为一个答案发布，因为它太长了，不能作为评论）可以这样想：例如，当从节点d开始时，随机步行者有50%的机会跳到节点e或节点a。每一次这样的跳跃都会用乘数y（图中的伽马）减少奖励（r）。继续跳跃直到到达目标节点（本例中为f），然后收集奖励r 如果我理解正确，两个较小的3x2正方

有谁能解释一下如何生成下面的值函数，问题和解决方案附在后面，我只是不知道解决方案是如何生成的。非常感谢。

还需要帮助

因为没有其他人尝试过这个问题，我将介绍我对这个问题的理解（免责声明：我不是强化学习方面的专家，我将此作为一个答案发布，因为它太长了，不能作为评论）

可以这样想：例如，当从节点d开始时，随机步行者有50%的机会跳到节点e或节点a。每一次这样的跳跃都会用乘数y（图中的伽马）减少奖励（r）。继续跳跃直到到达目标节点（本例中为f），然后收集奖励r

如果我理解正确，两个较小的3x2正方形表示从每个节点开始时的预期奖励值。现在，很明显，为什么在第一个3x2平方中，每个节点的值都是100：因为y=1，奖励永远不会减少。你可以一直跳来跳去，直到你最终进入奖励节点，然后获得r=100的奖励

然而，在第二个3x2正方形中，每跳一次，奖励就会以0.9的倍数减少。所以，当从平方c开始时，为了得到预期的奖励值，你将从不同路径得到的奖励相加，乘以它们的概率。从c到f有50%的几率，它是一个跳跃，所以你得到r=0.5*0.9^0*100=50。然后是路径c-b-e-f:0.5*（1/3）*（1/3）*0.9^2*100=4.5。然后是c-b-c-f:0.9^2*0.5^2*（1/3）^1*100=6.75。你继续这样做，直到你正在检查的路径的奖励微不足道，然后将所有路径的奖励相加。这将给出相应节点的结果，即50+6.75+4.5+…=76

我想编程的方法是使用修改后的dfs/bfs来探索长度为N或更小的所有路径，并将这些路径的奖励相加（选择的N使0.9^N很小）

再一次，把这个和一粒盐一起吃；我不是强化学习方面的专家。

由于没有其他人尝试过，我将介绍我对这个问题的理解（免责声明：我不是强化学习方面的专家，我将此作为一个答案发布，因为它太长，无法作为评论）

我想编程的方法是使用修改后的dfs/bfs来探索长度为N或更小的所有路径，并将这些路径的奖励相加（选择的N使0.9^N很小）

再一次，把这个和一粒盐一起吃；我不是强化学习方面的专家。

我喜欢这个问题，但我不太喜欢你的问题。感觉上你想让我们为你做所有的工作。不，西蒙。这不是家庭作业，而是我课程中幻灯片的内容。只是不知道结果是如何产生的。我喜欢这个问题，但我不太喜欢你的问题。感觉上你想让我们为你做所有的工作。不，西蒙。这不是家庭作业，而是我课程中幻灯片的内容。只是不知道结果是如何产生的。