Artificial intelligence 为什么信赖域策略优化是基于策略算法的？_Artificial Intelligence_Reinforcement Learning

Artificial intelligence 为什么信赖域策略优化是基于策略算法的？

artificial-intelligence

Artificial intelligence 为什么信赖域策略优化是基于策略算法的？,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,我想知道为什么信赖域策略优化是基于策略算法的我认为，在TRPO中，我们按照旧政策进行抽样，更新新政策，并应用重要性抽样来纠正偏差。因此，它更像是一种非策略算法。但最近，我读到一篇文章说：与关闭策略算法相比，打开策略方法需要根据当前遵循的更新函数近似值政策。特别地，我们将考虑信赖域。政策优化：传统政策梯度的延伸方法采用自然梯度方向有什么我误解的吗？on policy方法的关键特性是它们必须使用估计的策略才能与环境交互。在信任区域策略优化的情况下，它使用当前策略有效地请求样本（即与环

我想知道为什么信赖域策略优化是基于策略算法的

我认为，在TRPO中，我们按照旧政策进行抽样，更新新政策，并应用重要性抽样来纠正偏差。因此，它更像是一种非策略算法。但最近，我读到一篇文章说：

与关闭策略算法相比，打开策略方法需要根据当前遵循的更新函数近似值政策。特别地，我们将考虑信赖域。政策优化：传统政策梯度的延伸方法采用自然梯度方向

有什么我误解的吗？

on policy方法的关键特性是它们必须使用估计的策略才能与环境交互。在信任区域策略优化的情况下，它使用当前策略有效地请求样本（即与环境交互），然后更新策略并在下一次迭代中使用新的策略估计

因此，该算法在学习过程中使用估计策略，这是策略方法的定义。

那么，PPO算法也在策略上吗？是的，它也在策略上。