Machine learning 强化学习中的状态相关动作集

Machine learning 强化学习中的状态相关动作集,machine-learning,reinforcement-learning,q-learning,Machine Learning,Reinforcement Learning,Q Learning,当不同州的法律行动不同时,人们如何处理问题?在我的案例中,我总共有10个行动,法律行动没有重叠,这意味着在某些州,相同的3个州始终是合法的,而这些州在其他类型的州永远不合法 我还想知道,如果法律行动重叠,解决方案是否会有所不同 对于Q学习(我的网络为我提供状态/动作对的值),我在想,当我构建目标值时,也许我可以小心选择哪个Q值。(即,我在法律诉讼中选择最大值,而不是选择最大值…) 对于策略梯度类型的方法,我不太确定什么是合适的设置。计算损耗时,屏蔽输出层可以吗 不确定我是否正确理解了您的问题,但

当不同州的法律行动不同时,人们如何处理问题?在我的案例中,我总共有10个行动,法律行动没有重叠,这意味着在某些州,相同的3个州始终是合法的,而这些州在其他类型的州永远不合法

我还想知道,如果法律行动重叠,解决方案是否会有所不同

对于Q学习(我的网络为我提供状态/动作对的值),我在想,当我构建目标值时,也许我可以小心选择哪个Q值。(即,我在法律诉讼中选择最大值,而不是选择最大值…)


对于策略梯度类型的方法,我不太确定什么是合适的设置。计算损耗时,屏蔽输出层可以吗

不确定我是否正确理解了您的问题,但如果您的意思是在某些状态下某些操作是不可能的,那么您只需将其反映在奖励函数中(大负值)。如果不清楚非法行为会导致什么状态,你甚至可以决定结束这一集。然后,代理应该了解到,这些行为在特定状态下是不可取的


在探索模式下,代理仍可能选择执行非法操作。然而,在开发模式下,它应该避免它们。

我最近为connect four构建了一个DDQ代理,并且必须解决这个问题。每当选择一个已经满是代币的列时,我将奖励设置为等于输掉游戏。我的情况是-100,效果很好

在connect four中,允许非法移动(有效地跳过回合)在某些情况下对玩家有利。这就是为什么我将奖励设置为等于失败,而不是更小的负数


因此,如果你设定的负回报大于损失,你就必须考虑在你的领域中允许非法活动在探索中发生的含义。

目前,这个问题似乎没有一个,普遍的,直截了当的答案。也许因为这不是一个问题

您建议为法律行动选择最佳Q值,实际上是处理此问题的建议方法之一。对于策略梯度方法,您可以通过屏蔽非法操作并适当地增大其他操作的概率来实现类似的结果

另一种方法是对选择非法行为给予负面奖励——或者忽略选择,不改变环境,返回与以前相同的奖励。作为我个人的一个经验(Q学习法),我选择了后者,经纪人学会了他必须学习的东西,但他不时地将非法行为作为“不采取行动”的行为。这对我来说并不是什么问题,但负面奖励可能会消除这种行为

如您所见,当操作“重叠”时,这些解决方案不会改变或不同

回答您在评论中提出的问题-我不相信您可以在代理未学习法律/非法行为规则的情况下,在所述条件下对其进行培训。例如,这就需要为每一套法律行动建立独立的网络,听起来并不是最好的主意(特别是如果有很多可能的法律行动)

但是学习这些规则难吗


你必须自己回答一些问题-是什么条件使得这种行为违法,很难表达/表达?当然,这是特定于环境的,但我想说的是,大多数时候表达并不难,特工只是在训练中学习。如果很难,您的环境是否提供了有关该州的足够信息

近两年有两项密切相关的工作:

[1] 用随机动作集进行规划和学习〉,arXiv预印本arXiv:1805.02363(2018)


[2] 当所有动作不总是可用时,强化学习〉,AAAI。2020年。

但这似乎意味着经纪人也必须学习游戏规则,这使得问题更加棘手。有没有办法在不必了解的情况下以某种方式向代理提供这些信息?请参阅我对另一个答案的评论。你的意思是经纪人也必须学习游戏规则,这使得问题变得更难。有没有办法在不必学习的情况下以某种方式向代理提供该信息?