Machine learning 如何为机器人代码建立状态/行动Q表?

Machine learning 如何为机器人代码建立状态/行动Q表?,machine-learning,artificial-intelligence,reinforcement-learning,q-learning,robocode,Machine Learning,Artificial Intelligence,Reinforcement Learning,Q Learning,Robocode,因此,我的问题是理解为每个状态都有更多参数的状态创建Q表,如robocode。99%的在线示例都太简单了,很难想象在如此复杂的环境中会出现这种情况 根据我在Q-learning中的理解,创建了一个2D表格,其中包含状态/动作…因此,对于每个游戏状态,都会出现一些动作。在类似于FrozenLake的游戏中,它非常简单。从每个正方形(X/Y点)有4种可能的动作(上、下、左、右)。这意味着在4x4 FrozenLake字段中,您有16个可能的状态,每个状态有4个动作(Q表16x4)。就这样 但在机器人

因此,我的问题是理解为每个状态都有更多参数的状态创建
Q表
,如robocode。99%的在线示例都太简单了,很难想象在如此复杂的环境中会出现这种情况

根据我在Q-learning中的理解,创建了一个2D表格,其中包含
状态/动作
…因此,对于每个游戏状态,都会出现一些动作。在类似于
FrozenLake
的游戏中,它非常简单。从每个正方形(X/Y点)有4种可能的动作(上、下、左、右)。这意味着在4x4 FrozenLake字段中,您有16个可能的状态,每个状态有4个动作(Q表16x4)。就这样

但在机器人代码中,你们要记住:炮塔角度,X/Y坐标,能量和敌人状态,它们包含相同的参数。这些参数代表一个状态,对吗?所以算法必须考虑所有这些值。当然,如果我想在我的
i5-4210h2.9GHz
上合理地训练它,所有这些值都必须简化

所以

1)如何为机器人代码创建Q表,以及Q表的外观如何?

2)简化所有这些状态值的最佳方法是什么?

PS:我们把它作为一个学校项目,我们用Java/C做这个,因为robocode支持这两种语言