Artificial intelligence MDP:如何计算一系列行动的每个可能结果的机会?

Artificial intelligence MDP:如何计算一系列行动的每个可能结果的机会?,artificial-intelligence,transitions,markov,mdp,Artificial Intelligence,Transitions,Markov,Mdp,我在以下环境(3x4映射)中遇到MDP问题: 可能的动作为上/下/右/左,向右移动的几率为0.8,每个相邻方向为0.1(例如,向上:向左移动的几率为0.1,向右移动的几率为0.1) 现在我需要做的是从(1,1)开始计算可能的结果,运行以下操作序列: [上,上,对,对,对] 并且还计算通过这个动作序列到达某个领域的机会(对于每个可能的结果)。我如何才能有效地做到这一点(这样就不会经历至少2^5,最多3^5个可能的结果) 提前谢谢 嗯。我想知道你是否在解决RL问题。 我们现在通常用Bellman方

我在以下环境(3x4映射)中遇到MDP问题:

可能的动作为上/下/右/左,向右移动的几率为0.8,每个相邻方向为0.1(例如,向上:向左移动的几率为0.1,向右移动的几率为0.1)

现在我需要做的是从(1,1)开始计算可能的结果,运行以下操作序列:

[上,上,对,对,对]

并且还计算通过这个动作序列到达某个领域的机会(对于每个可能的结果)。我如何才能有效地做到这一点(这样就不会经历至少2^5,最多3^5个可能的结果)


提前谢谢

嗯。我想知道你是否在解决RL问题。 我们现在通常用Bellman方程和Q-学习来解决RL问题

你也将从这次讲座中受益。

如果你完成了学习,重复整个过程,你就会知道[向上,向上,对,对,对]的概率

在学习之后,第二个约束将毫无意义,因为它几乎立即得到正确答案

我想这个例子在艾玛,对吗? 实际上,我对这个方法有几个问题。 我认为如果你从理论上讲,我的答案似乎不对

while not done:
    if np.random.rand(1) < e:
        action = env.action_space.sample()
    else:
        action = rargmax(Q[state, :])

    new_state, reward, done, _ = env.step(action)
    Q[state, action] = Q[state, action]+ lr * (reward + r*np.max(Q[new_state,:]) - Q[state, action])
未完成时:
如果np.rand.rand(1)

这是我在健身房简单编写的代码

这是家庭作业吗?