Artificial intelligence 根据所看到的转换确定MDP
在马尔可夫决策过程中可以看到以下转换。试试看Artificial intelligence 根据所看到的转换确定MDP,artificial-intelligence,reinforcement-learning,markov-decision-process,Artificial Intelligence,Reinforcement Learning,Markov Decision Process,在马尔可夫决策过程中可以看到以下转换。试试看 R A S′ S 0 U C B -1 L E C 0 D C A -1 R E C 0 D C A +1 R D C 0 U C B +1 R D C 我需要找到状态、转换、奖励和转换的概率。 我已经解决了所有的概率,但我不知道如何计算它们 如果有人能提供帮助,我只需要知道状态B的起始位置,操作U总是会导致新状态C。所以,P(C | B,U)=1(你也可以认为P(C | B)=1)P
R A S′ S
0 U C B
-1 L E C
0 D C A
-1 R E C
0 D C A
+1 R D C
0 U C B
+1 R D C
我需要找到状态、转换、奖励和转换的概率。
我已经解决了所有的概率,但我不知道如何计算它们
如果有人能提供帮助,我只需要知道状态
B
的起始位置,操作U
总是会导致新状态C
。所以,P(C | B,U)=1
(你也可以认为P(C | B)=1
)<代码>P(D | C,R)=2/3,因为在三种情况中有两种情况下,状态C
中的动作R
导致D