Model 模型和政策w.r.t强化学习之间的区别是什么_Model_Reinforcement Learning_Mdp

Model 模型和政策w.r.t强化学习之间的区别是什么

model

Model 模型和政策w.r.t强化学习之间的区别是什么,model,reinforcement-learning,mdp,Model,Reinforcement Learning,Mdp,这两个定义似乎都表明它们是从状态映射到行为的，那么区别是什么？或者我错了吗？这篇文章真的为您总结了一下：建模还是不建模 “模型”是在机器学习（以及更普遍的科学学科）中经常出现的术语之一，通常对我们的意思有一个相对模糊的解释。幸运的是，在强化学习中，模型有一个非常具体的含义：它指的是环境的不同动态状态以及这些状态如何导致奖励 …该策略是您根据当前状态/位置决定采取何种行动/方向的任何策略强化学习（或任何真正的学习）的总体结果是制定一项政策，即针对特定领域采取的一系列行为或行动强化因素是您根

这两个定义似乎都表明它们是从状态映射到行为的，那么区别是什么？或者我错了吗？

这篇文章真的为您总结了一下：

建模还是不建模 “模型”是在机器学习（以及更普遍的科学学科）中经常出现的术语之一，通常对我们的意思有一个相对模糊的解释。幸运的是，在强化学习中，模型有一个非常具体的含义：它指的是环境的不同动态状态以及这些状态如何导致奖励

…该策略是您根据当前状态/位置决定采取何种行动/方向的任何策略

强化学习（或任何真正的学习）的总体结果是制定一项政策，即针对特定领域采取的一系列行为或行动

强化因素是您根据先前学习的结果不断重新运行学习过程，有效地应用新策略并从结果中学习以改进策略

在基于模型的强化学习中，我们使用一个模型来表示环境或领域，这记录了事实、状态以及可能的行动。通过了解某些事实，策略可以在每个重复周期中针对这些状态和操作，测试并提高策略的准确性，就像它提高模型的质量一样

另一种看待两者的方式是，模型是先前学习的记录或结果，它是环境的更新视图。该模型处理事实或假设事实，基于过去的策略执行结果，该模型保存了过去执行的记录，该数据可用于近似特定州采取某些行动的结果。政策是关于行为的实际学习，其中作为模型的是支持和确认我们学习的事实

这张来自同一篇文章的图表简化了强化学习中模型和策略之间的关系：

大家好，欢迎来到Stack Overflow。有关机器学习的问题，请访问stats.stackexchange.com进行交叉验证。祝你好运