Machine learning RL:使用On策略和Off策略进行自我游戏

Machine learning RL:使用On策略和Off策略进行自我游戏,machine-learning,reinforcement-learning,Machine Learning,Reinforcement Learning,我尝试用PPO实现自我游戏。 假设我们有一个有两个经纪人的游戏。我们在每一方控制一名玩家,并在每一步后获得观察和奖励等信息。据我所知,您可以使用左右球员的信息来生成训练数据并优化模型。但这只适用于非政策,不是吗? 因为使用on-policy(例如PPO)时,您希望由当前网络版本生成培训数据,而在自助游戏期间通常不是这样 谢谢 确切地说,这也是为什么只能将体验重播(重播缓冲区)用于非策略方法(如Q-learning)的原因。使用当前策略未生成的示例步骤违反了正在反向传播的渐变背后的数学假设

我尝试用PPO实现自我游戏。 假设我们有一个有两个经纪人的游戏。我们在每一方控制一名玩家,并在每一步后获得观察和奖励等信息。据我所知,您可以使用左右球员的信息来生成训练数据并优化模型。但这只适用于非政策,不是吗? 因为使用on-policy(例如PPO)时,您希望由当前网络版本生成培训数据,而在自助游戏期间通常不是这样


谢谢

确切地说,这也是为什么只能将体验重播(重播缓冲区)用于非策略方法(如Q-learning)的原因。使用当前策略未生成的示例步骤违反了正在反向传播的渐变背后的数学假设