Artificial intelligence MDP：如何计算一系列行动的每个可能结果的机会？_Artificial Intelligence_Transitions_Markov_Mdp

Artificial intelligence MDP：如何计算一系列行动的每个可能结果的机会？

artificial-intelligence

Artificial intelligence MDP：如何计算一系列行动的每个可能结果的机会？,artificial-intelligence,transitions,markov,mdp,Artificial Intelligence,Transitions,Markov,Mdp,我在以下环境（3x4映射）中遇到MDP问题：可能的动作为上/下/右/左，向右移动的几率为0.8，每个相邻方向为0.1（例如，向上：向左移动的几率为0.1，向右移动的几率为0.1）现在我需要做的是从（1,1）开始计算可能的结果，运行以下操作序列： [上，上，对，对，对] 并且还计算通过这个动作序列到达某个领域的机会（对于每个可能的结果）。我如何才能有效地做到这一点（这样就不会经历至少2^5，最多3^5个可能的结果）提前谢谢嗯。我想知道你是否在解决RL问题。我们现在通常用Bellman方

我在以下环境（3x4映射）中遇到MDP问题：

可能的动作为上/下/右/左，向右移动的几率为0.8，每个相邻方向为0.1（例如，向上：向左移动的几率为0.1，向右移动的几率为0.1）

现在我需要做的是从（1,1）开始计算可能的结果，运行以下操作序列：

[上，上，对，对，对]

并且还计算通过这个动作序列到达某个领域的机会（对于每个可能的结果）。我如何才能有效地做到这一点（这样就不会经历至少2^5，最多3^5个可能的结果）

提前谢谢

嗯。我想知道你是否在解决RL问题。我们现在通常用Bellman方程和Q-学习来解决RL问题

你也将从这次讲座中受益。

如果你完成了学习，重复整个过程，你就会知道[向上，向上，对，对，对]的概率

在学习之后，第二个约束将毫无意义，因为它几乎立即得到正确答案

我想这个例子在艾玛，对吗？实际上，我对这个方法有几个问题。我认为如果你从理论上讲，我的答案似乎不对

while not done:
    if np.random.rand(1) < e:
        action = env.action_space.sample()
    else:
        action = rargmax(Q[state, :])

    new_state, reward, done, _ = env.step(action)
    Q[state, action] = Q[state, action]+ lr * (reward + r*np.max(Q[new_state,:]) - Q[state, action])

未完成时：
如果np.rand.rand（1）


这是我在健身房简单编写的代码
 这是家庭作业吗？