Artificial intelligence 根据所看到的转换确定MDP_Artificial Intelligence_Reinforcement Learning_Markov Decision Process

Artificial intelligence 根据所看到的转换确定MDP

artificial-intelligence

Artificial intelligence 根据所看到的转换确定MDP,artificial-intelligence,reinforcement-learning,markov-decision-process,Artificial Intelligence,Reinforcement Learning,Markov Decision Process,在马尔可夫决策过程中可以看到以下转换。试试看 R A S′ S 0 U C B -1 L E C 0 D C A -1 R E C 0 D C A +1 R D C 0 U C B +1 R D C 我需要找到状态、转换、奖励和转换的概率。我已经解决了所有的概率，但我不知道如何计算它们如果有人能提供帮助，我只需要知道状态B的起始位置，操作U总是会导致新状态C。所以，P（C | B，U）=1（你也可以认为P（C | B）=1）P

在马尔可夫决策过程中可以看到以下转换。试试看

 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C

我需要找到状态、转换、奖励和转换的概率。我已经解决了所有的概率，但我不知道如何计算它们

如果有人能提供帮助，我只需要知道状态

的起始位置，操作

总是会导致新状态

。所以，

P（C | B，U）=1

（你也可以认为

P（C | B）=1

）<代码>P（D | C，R）=2/3，因为在三种情况中有两种情况下，状态

中的动作

导致