以numpy统一初始化二维数组_Numpy_Reinforcement Learning

以numpy统一初始化二维数组

numpy

以numpy统一初始化二维数组,numpy,reinforcement-learning,Numpy,Reinforcement Learning,我想为强化学习创建一个概率分布随机策略 e.i policy[s,a] = P(take action a | in state s), where n_states=500 and n_actions=6 因为我们仍然使用整数状态和动作表示，所以我需要使用二维数组来表示策略如何统一初始化策略？也就是说，所有动作的概率应该相等。策略=np.full（fill_value=1./n_动作，shape=（n_状态，n_动作））@Jdehesa做np.one（（n_状态，n_动作））*np.ran

我想为强化学习创建一个概率分布随机策略

e.i policy[s,a] = P(take action a | in state s), where n_states=500 and n_actions=6

因为我们仍然使用整数状态和动作表示，所以我需要使用二维数组来表示策略

如何统一初始化策略？也就是说，所有动作的概率应该相等。

策略=np.full（fill_value=1./n_动作，shape=（n_状态，n_动作））@Jdehesa

做

np.one（（n_状态，n_动作））*np.random.random（）

策略=np.full（1./n_动作，（n_状态，n_动作））？@thomassaci和@ehesa，谢谢各位，你们是绅士和学者。去我的马厩，带上我最好的种马。它们是你的，我称它们为风食草动物和胶棍。对于初学者

policy=np.full（fill\u value=1./n\u actions，shape=（n\u states，n\u actions））