Artificial intelligence 为什么信赖域策略优化是基于策略算法的?

Artificial intelligence 为什么信赖域策略优化是基于策略算法的?,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,我想知道为什么信赖域策略优化是基于策略算法的 我认为,在TRPO中,我们按照旧政策进行抽样,更新新政策,并应用重要性抽样来纠正偏差。因此,它更像是一种非策略算法。 但最近,我读到一篇文章说: 与关闭策略算法相比,打开策略方法需要 根据当前遵循的更新函数近似值 政策。特别地,我们将考虑信赖域。 政策优化:传统政策梯度的延伸 方法采用自然梯度方向 有什么我误解的吗?on policy方法的关键特性是它们必须使用估计的策略才能与环境交互。在信任区域策略优化的情况下,它使用当前策略有效地请求样本(即与环

我想知道为什么信赖域策略优化是基于策略算法的

我认为,在TRPO中,我们按照旧政策进行抽样,更新新政策,并应用重要性抽样来纠正偏差。因此,它更像是一种非策略算法。 但最近,我读到一篇文章说:

与关闭策略算法相比,打开策略方法需要 根据当前遵循的更新函数近似值 政策。特别地,我们将考虑信赖域。 政策优化:传统政策梯度的延伸 方法采用自然梯度方向

有什么我误解的吗?

on policy方法的关键特性是它们必须使用估计的策略才能与环境交互。在信任区域策略优化的情况下,它使用当前策略有效地请求样本(即与环境交互),然后更新策略并在下一次迭代中使用新的策略估计


因此,该算法在学习过程中使用估计策略,这是策略方法的定义。

那么,PPO算法也在策略上吗?是的,它也在策略上。