Artificial intelligence 根据所看到的转换确定MDP

Artificial intelligence 根据所看到的转换确定MDP,artificial-intelligence,reinforcement-learning,markov-decision-process,Artificial Intelligence,Reinforcement Learning,Markov Decision Process,在马尔可夫决策过程中可以看到以下转换。试试看 R A S′ S 0 U C B -1 L E C 0 D C A -1 R E C 0 D C A +1 R D C 0 U C B +1 R D C 我需要找到状态、转换、奖励和转换的概率。 我已经解决了所有的概率,但我不知道如何计算它们 如果有人能提供帮助,我只需要知道状态B的起始位置,操作U总是会导致新状态C。所以,P(C | B,U)=1(你也可以认为P(C | B)=1)P

在马尔可夫决策过程中可以看到以下转换。试试看

 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C
我需要找到状态、转换、奖励和转换的概率。 我已经解决了所有的概率,但我不知道如何计算它们
如果有人能提供帮助,我只需要知道状态
B
的起始位置,操作
U
总是会导致新状态
C
。所以,
P(C | B,U)=1
(你也可以认为
P(C | B)=1
)<代码>P(D | C,R)=2/3,因为在三种情况中有两种情况下,状态
C
中的动作
R
导致
D