Artificial intelligence MonteCarloTreeSearch是否适合此问题规模（大动作/状态空间）？_Artificial Intelligence_Reinforcement Learning_Monte Carlo Tree Search_Markov Decision Process

Artificial intelligence MonteCarloTreeSearch是否适合此问题规模（大动作/状态空间）？

artificial-intelligence

Artificial intelligence MonteCarloTreeSearch是否适合此问题规模（大动作/状态空间）？,artificial-intelligence,reinforcement-learning,monte-carlo-tree-search,markov-decision-process,Artificial Intelligence,Reinforcement Learning,Monte Carlo Tree Search,Markov Decision Process,我正在研究一个t=1，…，40周期的有限视界决策问题。在每个时间步骤t中，（唯一）代理必须选择一个动作a（t）∈ A（t），而代理处于状态s（t）∈ S（t）。在状态s（t）中选择的动作a（t）会影响到向以下状态s（t+1）的转换。因此存在一个有限时域马尔可夫决策问题在我的例子中，以下是正确的：A（t）=A和S（t）=S，而A的大小是600000，S的大小是10^8。此外，转移函数是随机的由于我对蒙特卡罗树搜索（MCTS）理论相对较新，我问自己：MCTS是适合我的问题的方法吗（特别是由于

我正在研究一个t=1，…，40周期的有限视界决策问题。在每个时间步骤t中，（唯一）代理必须选择一个动作a（t）∈ A（t），而代理处于状态s（t）∈ S（t）。在状态s（t）中选择的动作a（t）会影响到向以下状态s（t+1）的转换。因此存在一个有限时域马尔可夫决策问题

在我的例子中，以下是正确的：A（t）=A和S（t）=S，而A的大小是600000，S的大小是10^8。此外，转移函数是随机的

由于我对蒙特卡罗树搜索（MCTS）理论相对较新，我问自己：MCTS是适合我的问题的方法吗（特别是由于A和S的大尺寸以及随机转移函数？）

我已经阅读了很多关于MCT的论文（例如progressiv加宽和double progressiv加宽，听起来很有希望），但是也许有人可以告诉我他将MCT应用于类似问题的经验，或者关于这个问题的适当方法（具有大的状态/动作空间和随机转移函数）

每个州有600万个随机动作，我认为任何一种模拟都不会在本质上永远运行的情况下实际区分这些动作

100 MM状态并不多，但是，您可以将所有状态的值存储在不到1 GB的内存中，类似值迭代或策略迭代的方法可以更快地解决此问题。

这不是说这不属于堆栈溢出，但可能有更好的机会在上获得好的答案？也很合适