Machine learning 一旦T（s，a，s'；）和R（s，a，s'；）被学习，值迭代能否仅基于学习模型中的信息来寻找最优策略？_Machine Learning_Artificial Intelligence_Reinforcement Learning_Unsupervised Learning

Machine learning 一旦T（s，a，s'；）和R（s，a，s'；）被学习，值迭代能否仅基于学习模型中的信息来寻找最优策略？

machine-learning artificial-intelligence

Machine learning 一旦T（s，a，s'；）和R（s，a，s'；）被学习，值迭代能否仅基于学习模型中的信息来寻找最优策略？,machine-learning,artificial-intelligence,reinforcement-learning,unsupervised-learning,Machine Learning,Artificial Intelligence,Reinforcement Learning,Unsupervised Learning,我想知道基于模型的学习是否：一旦T（s，a，s'）和R（s，a，s'）被学习，我可以使用值迭代来利用学习模型中的信息找到最优策略吗

我想知道基于模型的学习是否：一旦T（s，a，s'）和R（s，a，s'）被学习，我可以使用值迭代来利用学习模型中的信息找到最优策略吗