Artificial intelligence MDP:如何计算一系列行动的每个可能结果的机会?
我在以下环境(3x4映射)中遇到MDP问题: 可能的动作为上/下/右/左,向右移动的几率为0.8,每个相邻方向为0.1(例如,向上:向左移动的几率为0.1,向右移动的几率为0.1) 现在我需要做的是从(1,1)开始计算可能的结果,运行以下操作序列: [上,上,对,对,对] 并且还计算通过这个动作序列到达某个领域的机会(对于每个可能的结果)。我如何才能有效地做到这一点(这样就不会经历至少2^5,最多3^5个可能的结果)Artificial intelligence MDP:如何计算一系列行动的每个可能结果的机会?,artificial-intelligence,transitions,markov,mdp,Artificial Intelligence,Transitions,Markov,Mdp,我在以下环境(3x4映射)中遇到MDP问题: 可能的动作为上/下/右/左,向右移动的几率为0.8,每个相邻方向为0.1(例如,向上:向左移动的几率为0.1,向右移动的几率为0.1) 现在我需要做的是从(1,1)开始计算可能的结果,运行以下操作序列: [上,上,对,对,对] 并且还计算通过这个动作序列到达某个领域的机会(对于每个可能的结果)。我如何才能有效地做到这一点(这样就不会经历至少2^5,最多3^5个可能的结果) 提前谢谢 嗯。我想知道你是否在解决RL问题。 我们现在通常用Bellman方
提前谢谢 嗯。我想知道你是否在解决RL问题。 我们现在通常用Bellman方程和Q-学习来解决RL问题 你也将从这次讲座中受益。 如果你完成了学习,重复整个过程,你就会知道[向上,向上,对,对,对]的概率 在学习之后,第二个约束将毫无意义,因为它几乎立即得到正确答案 我想这个例子在艾玛,对吗? 实际上,我对这个方法有几个问题。 我认为如果你从理论上讲,我的答案似乎不对
while not done:
if np.random.rand(1) < e:
action = env.action_space.sample()
else:
action = rargmax(Q[state, :])
new_state, reward, done, _ = env.step(action)
Q[state, action] = Q[state, action]+ lr * (reward + r*np.max(Q[new_state,:]) - Q[state, action])
未完成时:
如果np.rand.rand(1)
这是我在健身房简单编写的代码 这是家庭作业吗?