Machine learning 强化学习中离散动作向连续动作的转化

Machine learning 强化学习中离散动作向连续动作的转化,machine-learning,reinforcement-learning,Machine Learning,Reinforcement Learning,在强化学习中,我们经验上知道使用离散动作比使用连续动作更容易训练 但从理论上讲,连续的动作更准确、更快速,就像我们人类一样,我们的大部分动作都是连续的 那么,是否有任何方法或相关研究可以训练一个离散的行动策略,以便于启动,然后将该策略转换为输出连续的行动,以提高精度 谢谢。你当然可以做到,任何使用强化学习进行持续控制的论文都可以做到这一点。唯一没有这样做的是使用深层强化学习或强化学习与函数近似的研究人员。我的研究是将强化学习和深度强化学习应用于动力系统。我将我的状态和动作空间离散化到足够的分辨率

在强化学习中,我们经验上知道使用离散动作比使用连续动作更容易训练

但从理论上讲,连续的动作更准确、更快速,就像我们人类一样,我们的大部分动作都是连续的

那么,是否有任何方法或相关研究可以训练一个离散的行动策略,以便于启动,然后将该策略转换为输出连续的行动,以提高精度


谢谢。

你当然可以做到,任何使用强化学习进行持续控制的论文都可以做到这一点。唯一没有这样做的是使用深层强化学习或强化学习与函数近似的研究人员。我的研究是将强化学习和深度强化学习应用于动力系统。我将我的状态和动作空间离散化到足够的分辨率,然后将其应用于控制问题

我目前正在研究一些方法,使离散化系统适用于连续空间。一种方法是使用线性插值。如果您的状态介于2个离散点之间,则可以使用线性插值来确定最佳动作(在连续空间中)。它对线性系统尤其有效,因为控制律是线性的,如下所示:

u=Kx 这种方法直接符合你的要求:在离散空间上训练,然后将其应用于连续控制问题

然而,传统上,连续控制问题是使用线性函数近似(如瓷砖编码)或非线性函数近似(如人工神经网络)来解决的。这些方法更先进,我建议首先尝试使用更基本的离散RL方法。我有一个RL代码在我的电脑上,你可以使用,让我知道如果你有任何问题