Julia 强化学习中的连续动作空间-代理如何从连续空间中选择动作值?
我已经学习强化学习几天了,我看到了一些问题,比如山地车问题和车柱问题 在这些问题中,动作空间的描述方式是离散的。例如,在车杆问题中,代理可以向左移动或向右移动Julia 强化学习中的连续动作空间-代理如何从连续空间中选择动作值?,julia,reinforcement-learning,Julia,Reinforcement Learning,我已经学习强化学习几天了,我看到了一些问题,比如山地车问题和车柱问题 在这些问题中,动作空间的描述方式是离散的。例如,在车杆问题中,代理可以向左移动或向右移动 但这些例子并没有提到多少?在所有这些动作都是连续的空间动作之后,代理如何决定向左移动多少,向右移动多少。所以我想知道代理如何决定从一个连续的动作空间中选择什么真正的值 另外,我一直在使用Julia,我想知道一种表示动作空间范围约束的方法。例如,代理选择作为其操作的实际值应该在[10.00,20.00]这样的范围内。我想知道如何做到这一点
您可以查看的实现细节。目前,它使用
。
from来描述连续范围。感谢我能够使用该库创建一个同步环境。但现在的问题是我的状态空间很大,因此无法使用表格近似器。我必须使用神经网络近似器,但有n个o展示如何使用的示例,文档也没有详细讨论。你能分享我能了解如何使用它的任何链接或示例吗?我想你可以先从这一个开始:我投票结束这个问题,因为它不是关于中定义的编程,而是关于RL理论/方法。