Julia 强化学习中的连续动作空间-代理如何从连续空间中选择动作值?

Julia 强化学习中的连续动作空间-代理如何从连续空间中选择动作值?,julia,reinforcement-learning,Julia,Reinforcement Learning,我已经学习强化学习几天了,我看到了一些问题,比如山地车问题和车柱问题 在这些问题中,动作空间的描述方式是离散的。例如,在车杆问题中,代理可以向左移动或向右移动 但这些例子并没有提到多少?在所有这些动作都是连续的空间动作之后,代理如何决定向左移动多少,向右移动多少。所以我想知道代理如何决定从一个连续的动作空间中选择什么真正的值 另外,我一直在使用Julia,我想知道一种表示动作空间范围约束的方法。例如,代理选择作为其操作的实际值应该在[10.00,20.00]这样的范围内。我想知道如何做到这一点

我已经学习强化学习几天了,我看到了一些问题,比如山地车问题和车柱问题

在这些问题中,动作空间的描述方式是离散的。例如,在车杆问题中,代理可以向左移动或向右移动

  • 但这些例子并没有提到多少?在所有这些动作都是连续的空间动作之后,代理如何决定向左移动多少,向右移动多少。所以我想知道代理如何决定从一个连续的动作空间中选择什么真正的值

  • 另外,我一直在使用Julia,我想知道一种表示动作空间范围约束的方法。例如,代理选择作为其操作的实际值应该在[10.00,20.00]这样的范围内。我想知道如何做到这一点

  • 但是这些例子没有讨论多少?在所有这些动作都是连续的空间动作之后,代理如何决定向左移动多少,向右移动多少。所以我想知道代理如何决定从连续的动作空间中选择什么真正的值
  • 常见的解决方案是假设代理的输出遵循正态分布。然后您只需要设计一个代理来预测平均值和标准值。最后从该分布中采样一个随机动作,并将其传递给环境

    另一种可能的解决方案是将连续动作空间离散化,并将其转化为离散动作空间问题,然后从预测的箱子中随机抽取一个动作

  • 此外,我一直在Julia中使用ReinforcementLearning.jl,我想知道一种表示动作空间范围约束的方法。例如,代理选择的动作实际值应该在[10.00,20.00]这样的范围内。我想知道如何做到这一点

  • 您可以查看的实现细节。目前,它使用
    from来描述连续范围。

    感谢我能够使用该库创建一个同步环境。但现在的问题是我的状态空间很大,因此无法使用表格近似器。我必须使用神经网络近似器,但有n个o展示如何使用的示例,文档也没有详细讨论。你能分享我能了解如何使用它的任何链接或示例吗?我想你可以先从这一个开始:我投票结束这个问题,因为它不是关于中定义的编程,而是关于RL理论/方法。