Machine learning 贝尔曼方程

Machine learning 贝尔曼方程,machine-learning,q-learning,Machine Learning,Q Learning,贝尔曼方程 在哪里, s=特定状态(房间) a=动作(在房间之间移动) s′=机器人从s移动到的状态 在max下面的a表示它在s处可以采取的所有行动中获得最大的奖励值,并在下一个状态s'中获得最大的奖励值 根据已知的奖励函数,应使用贝尔曼方程为模型选择下一个动作 如果有什么问题,请告诉我。谢谢。通过迭代所有a,获取更新V(s)的最大值。这不是一个编程问题,更适合于。@aryamcarthy你的意思是我们不能在编程中使用它吗?不,我的意思是你的问题是关于如何读取与编程或调试无关的数学公式。

贝尔曼方程

在哪里,

s=特定状态(房间)

a=动作(在房间之间移动)

s′=机器人从s移动到的状态


max下面的a表示它在s处可以采取的所有行动中获得最大的奖励值,并在下一个状态s'中获得最大的奖励值

根据已知的奖励函数,应使用贝尔曼方程为模型选择下一个动作


如果有什么问题,请告诉我。谢谢。

通过迭代所有
a
,获取更新
V(s)
的最大值。这不是一个编程问题,更适合于。@aryamcarthy你的意思是我们不能在编程中使用它吗?不,我的意思是你的问题是关于如何读取与编程或调试无关的数学公式。