以numpy统一初始化二维数组

以numpy统一初始化二维数组,numpy,reinforcement-learning,Numpy,Reinforcement Learning,我想为强化学习创建一个概率分布随机策略 e.i policy[s,a] = P(take action a | in state s), where n_states=500 and n_actions=6 因为我们仍然使用整数状态和动作表示,所以我需要使用二维数组来表示策略 如何统一初始化策略?也就是说,所有动作的概率应该相等。策略=np.full(fill_value=1./n_动作,shape=(n_状态,n_动作))@Jdehesa做np.one((n_状态,n_动作))*np.ran

我想为强化学习创建一个概率分布随机策略

e.i policy[s,a] = P(take action a | in state s), where n_states=500 and n_actions=6
因为我们仍然使用整数状态和动作表示,所以我需要使用二维数组来表示策略


如何统一初始化策略?也就是说,所有动作的概率应该相等。

策略=np.full(fill_value=1./n_动作,shape=(n_状态,n_动作))@Jdehesa

np.one((n_状态,n_动作))*np.random.random()
策略=np.full(1./n_动作,(n_状态,n_动作))?@thomassaci和@ehesa,谢谢各位,你们是绅士和学者。去我的马厩,带上我最好的种马。它们是你的,我称它们为风食草动物和胶棍。对于初学者
policy=np.full(fill\u value=1./n\u actions,shape=(n\u states,n\u actions))