Machine learning 一旦T(s,a,s';)和R(s,a,s';)被学习,值迭代能否仅基于学习模型中的信息来寻找最优策略?

Machine learning 一旦T(s,a,s';)和R(s,a,s';)被学习,值迭代能否仅基于学习模型中的信息来寻找最优策略?,machine-learning,artificial-intelligence,reinforcement-learning,unsupervised-learning,Machine Learning,Artificial Intelligence,Reinforcement Learning,Unsupervised Learning,我想知道基于模型的学习是否: 一旦T(s,a,s')和R(s,a,s')被学习,我可以使用值迭代来利用学习模型中的信息找到最优策略吗

我想知道基于模型的学习是否: 一旦T(s,a,s')和R(s,a,s')被学习,我可以使用值迭代来利用学习模型中的信息找到最优策略吗