Machine learning 贝尔曼方程_Machine Learning_Q Learning

Machine learning 贝尔曼方程

machine-learning

Machine learning 贝尔曼方程,machine-learning,q-learning,Machine Learning,Q Learning,贝尔曼方程在哪里, s=特定状态（房间） a=动作（在房间之间移动） s′=机器人从s移动到的状态在max下面的a表示它在s处可以采取的所有行动中获得最大的奖励值，并在下一个状态s'中获得最大的奖励值根据已知的奖励函数，应使用贝尔曼方程为模型选择下一个动作如果有什么问题，请告诉我。谢谢。通过迭代所有a，获取更新V（s）的最大值。这不是一个编程问题，更适合于。@aryamcarthy你的意思是我们不能在编程中使用它吗？不，我的意思是你的问题是关于如何读取与编程或调试无关的数学公式。

贝尔曼方程

在哪里,

s=特定状态（房间）

a=动作（在房间之间移动）

s′=机器人从s移动到的状态

在max下面的a表示它在s处可以采取的所有行动中获得最大的奖励值，并在下一个状态s'中获得最大的奖励值
根据已知的奖励函数，应使用贝尔曼方程为模型选择下一个动作
如果有什么问题，请告诉我。谢谢。
通过迭代所有a
，获取更新V（s）
的最大值。这不是一个编程问题，更适合于。@aryamcarthy你的意思是我们不能在编程中使用它吗？不，我的意思是你的问题是关于如何读取与编程或调试无关的数学公式。