Machine learning Q学习,拉米游戏的状态、行动和奖励是什么?

Machine learning Q学习,拉米游戏的状态、行动和奖励是什么?,machine-learning,reinforcement-learning,q-learning,Machine Learning,Reinforcement Learning,Q Learning,我正在为rummy研究q学习算法,我必须生成一个q表,其中它作为q[状态,动作],因为在rummy游戏中,动作要么选择要么放弃我的值设置为2,其中当涉及到状态时,数字是多少?(问题1) 现在牌堆里的牌是A,1,2,3,4,5,6和7,每种类型,大约28张牌+4张A,这意味着我有32个状态吗?如果是这样的话,当我更新Q表中的值时,它实际上意味着什么。(问题2) 在上述情况下,如何设计奖励表(问题3) 谢谢你的帮助

我正在为rummy研究q学习算法,我必须生成一个q表,其中它作为q[状态,动作],因为在rummy游戏中,动作要么选择要么放弃我的值设置为2,其中当涉及到状态时,数字是多少?(问题1)

现在牌堆里的牌是A,1,2,3,4,5,6和7,每种类型,大约28张牌+4张A,这意味着我有32个状态吗?如果是这样的话,当我更新Q表中的值时,它实际上意味着什么。(问题2)

在上述情况下,如何设计奖励表(问题3)

谢谢你的帮助