Deep learning 进化策略和强化学习的区别?

Deep learning 进化策略和强化学习的区别?,deep-learning,reinforcement-learning,robotics,evolutionary-algorithm,Deep Learning,Reinforcement Learning,Robotics,Evolutionary Algorithm,我正在学习机器人强化学习中采用的方法,我偶然发现了进化策略的概念。但我不明白RL和ES有什么不同。有人能解释一下吗?据我所知,我知道两个主要问题 1)强化学习使用一个agent的概念,agent通过不同方式与环境交互进行学习。在进化算法中,它们通常从许多“代理”开始,只有“强代理”存活下来(具有产生最低损失的特征的代理) 2)强化学习代理学习积极和消极行为,但进化算法只学习最优解,消极或次优解信息被丢弃和丢失 示例 你想建立一个算法来调节房间的温度 房间温度是15摄氏度,而你想要的是23摄氏度

我正在学习机器人强化学习中采用的方法,我偶然发现了进化策略的概念。但我不明白RL和ES有什么不同。有人能解释一下吗?

据我所知,我知道两个主要问题

1)强化学习使用一个agent的概念,agent通过不同方式与环境交互进行学习。在进化算法中,它们通常从许多“代理”开始,只有“强代理”存活下来(具有产生最低损失的特征的代理)

2)强化学习代理学习积极和消极行为,但进化算法只学习最优解,消极或次优解信息被丢弃和丢失

示例

你想建立一个算法来调节房间的温度

房间温度是15摄氏度,而你想要的是23摄氏度

使用强化学习,代理将尝试一系列不同的操作来提高和降低温度。最终,它了解到提高温度会产生良好的回报。但它也了解到降低温度会带来不好的回报

对于进化算法,它首先使用一组随机代理,这些代理都有一组预先编程好的操作。然后,具有“升温”作用的代理存活下来,并转移到下一代。最终,只有提高温度的药剂才能存活,并被认为是最好的解决方案。但是,算法不知道如果降低温度会发生什么


TL;DR:RL通常是一个代理,尝试不同的行动,学习并记住所有信息(正面或负面)。EM使用许多代理来猜测许多操作,只有具有最佳操作的代理才能生存。基本上是解决问题的蛮力方法。

我认为进化策略和强化学习的最大区别在于ES是一种全局优化技术,而RL是一种局部优化技术。因此,RL可以收敛到局部最优解,收敛速度更快,而ES收敛速度较慢,收敛到全局极小值

嗨,顺约,我有一个关于这个的简短问题。我想知道为什么你说ES可以收敛到全局解,而RL可以收敛到局部解。据我所知,ES只能“保证”无限时间内的全局解,但适用于损失函数不可微的离散问题。RL解决了最优控制中保证全局最优的动态规划问题,因为目标函数本质上是凸的。Hi Rui,我认为这是一个相关的问题。如果目标函数是凸的,则解是唯一的,当然,RL将收敛到全局解。然而,问题是当目标函数是非凸的(在许多实际问题中可能是非凸的)时,RL会陷入局部最优。另一方面,由于从大量人口中采样,ES将更容易收敛到全局解(当然不能保证)。围绕这个问题的工作是奖励塑造,这很麻烦,更像是一门艺术而不是科学。