Reinforcement learning 您将如何处理这个多代理强化学习问题?

Reinforcement learning 您将如何处理这个多代理强化学习问题?,reinforcement-learning,multi-agent,Reinforcement Learning,Multi Agent,嗨,我正在寻找一种多代理强化算法,它将有限的资源分配合并到动作选择中。在最简单的情况下,两个代理必须学会协调以选择产生最高回报的联合行动,同时保持在支出限制之下 我在传统的多代理RL实现中遇到的问题是,代理通常具有独立的观察并同时进行选择 然而,在这种情况下,第二个代理的观察结果直接基于第一个代理花费了多少钱 假设我们有10美元在杂货店买食物,每种食物都有一个预定义的成本/价值表。如果代理1花费9美元,代理2只能选择花费1美元的食品。代理1和代理2必须共同努力,找到最佳的折衷方案,以使他们的总回

嗨,我正在寻找一种多代理强化算法,它将有限的资源分配合并到动作选择中。在最简单的情况下,两个代理必须学会协调以选择产生最高回报的联合行动,同时保持在支出限制之下

我在传统的多代理RL实现中遇到的问题是,代理通常具有独立的观察并同时进行选择

然而,在这种情况下,第二个代理的观察结果直接基于第一个代理花费了多少钱

假设我们有10美元在杂货店买食物,每种食物都有一个预定义的成本/价值表。如果代理1花费9美元,代理2只能选择花费1美元的食品。代理1和代理2必须共同努力,找到最佳的折衷方案,以使他们的总回报最大化。从RL的角度来看,您将如何处理这个问题

我的想法是,代理人1将不得不考虑不仅是即时的自私奖励,他选择了一个好的行动,但剩下的状态的质量留给代理人2。他需要能够区分采取导致坏结果的自私的好行为和采取一般的坏行为(没有什么价值的食物)