Deep learning 进化策略和强化学习的区别？_Deep Learning_Reinforcement Learning_Robotics_Evolutionary Algorithm

Deep learning 进化策略和强化学习的区别？

deep-learning

Deep learning 进化策略和强化学习的区别？,deep-learning,reinforcement-learning,robotics,evolutionary-algorithm,Deep Learning,Reinforcement Learning,Robotics,Evolutionary Algorithm,我正在学习机器人强化学习中采用的方法，我偶然发现了进化策略的概念。但我不明白RL和ES有什么不同。有人能解释一下吗？据我所知，我知道两个主要问题 1）强化学习使用一个agent的概念，agent通过不同方式与环境交互进行学习。在进化算法中，它们通常从许多“代理”开始，只有“强代理”存活下来（具有产生最低损失的特征的代理） 2）强化学习代理学习积极和消极行为，但进化算法只学习最优解，消极或次优解信息被丢弃和丢失示例你想建立一个算法来调节房间的温度房间温度是15摄氏度，而你想要的是23摄氏度

我正在学习机器人强化学习中采用的方法，我偶然发现了进化策略的概念。但我不明白RL和ES有什么不同。有人能解释一下吗？

据我所知，我知道两个主要问题

1）强化学习使用一个agent的概念，agent通过不同方式与环境交互进行学习。在进化算法中，它们通常从许多“代理”开始，只有“强代理”存活下来（具有产生最低损失的特征的代理）

2）强化学习代理学习积极和消极行为，但进化算法只学习最优解，消极或次优解信息被丢弃和丢失

示例

你想建立一个算法来调节房间的温度

房间温度是15摄氏度，而你想要的是23摄氏度

使用强化学习，代理将尝试一系列不同的操作来提高和降低温度。最终，它了解到提高温度会产生良好的回报。但它也了解到降低温度会带来不好的回报

对于进化算法，它首先使用一组随机代理，这些代理都有一组预先编程好的操作。然后，具有“升温”作用的代理存活下来，并转移到下一代。最终，只有提高温度的药剂才能存活，并被认为是最好的解决方案。但是，算法不知道如果降低温度会发生什么

TL；DR:RL通常是一个代理，尝试不同的行动，学习并记住所有信息（正面或负面）。EM使用许多代理来猜测许多操作，只有具有最佳操作的代理才能生存。基本上是解决问题的蛮力方法。

我认为进化策略和强化学习的最大区别在于ES是一种全局优化技术，而RL是一种局部优化技术。因此，RL可以收敛到局部最优解，收敛速度更快，而ES收敛速度较慢，收敛到全局极小值

嗨，顺约，我有一个关于这个的简短问题。我想知道为什么你说ES可以收敛到全局解，而RL可以收敛到局部解。据我所知，ES只能“保证”无限时间内的全局解，但适用于损失函数不可微的离散问题。RL解决了最优控制中保证全局最优的动态规划问题，因为目标函数本质上是凸的。Hi Rui，我认为这是一个相关的问题。如果目标函数是凸的，则解是唯一的，当然，RL将收敛到全局解。然而，问题是当目标函数是非凸的（在许多实际问题中可能是非凸的）时，RL会陷入局部最优。另一方面，由于从大量人口中采样，ES将更容易收敛到全局解（当然不能保证）。围绕这个问题的工作是奖励塑造，这很麻烦，更像是一门艺术而不是科学。