Artificial intelligence 制定奖励结构

Artificial intelligence 制定奖励结构,artificial-intelligence,reinforcement-learning,montecarlo,reward,dqn,Artificial Intelligence,Reinforcement Learning,Montecarlo,Reward,Dqn,我是新的强化学习和实验训练的RL代理 我对奖励公式有一个疑问,从一个给定的状态来看,如果一个代理人做出了一个好的行为,我会给他一个积极的奖励,如果行为不好,我会给他一个消极的奖励。所以,如果我给代理人非常高的积极奖励,当他采取了一个好的行动,比如100倍的积极价值相比,消极奖励,它会帮助代理人在培训期间 直觉上我觉得,这将有助于代理培训,但这种扭曲的奖励结构会有任何缺点吗?嗯,通常我(根据我的经验得出的个人观点)认为奖励应该与它对代理的影响相对应。如果问题是奖励稀少,你可以看看这个问题,看看如何

我是新的强化学习和实验训练的RL代理

我对奖励公式有一个疑问,从一个给定的状态来看,如果一个代理人做出了一个好的行为,我会给他一个积极的奖励,如果行为不好,我会给他一个消极的奖励。所以,如果我给代理人非常高的积极奖励,当他采取了一个好的行动,比如100倍的积极价值相比,消极奖励,它会帮助代理人在培训期间

直觉上我觉得,这将有助于代理培训,但这种扭曲的奖励结构会有任何缺点吗?

嗯,通常我(根据我的经验得出的个人观点)认为奖励应该与它对代理的影响相对应。如果问题是奖励稀少,你可以看看这个问题,看看如何解决

我可以举一个可能具有挑战性的例子:如果奖励比不好的奖励要积极得多,那么代理人可能不会太在意自己是否冒着在美国获得大的积极奖励的风险。所以你可能会和一个有风险的特工在一起