Artificial intelligence 奖励政策在强化学习中的重要性是什么?

Artificial intelligence 奖励政策在强化学习中的重要性是什么?,artificial-intelligence,reinforcement-learning,q-learning,Artificial Intelligence,Reinforcement Learning,Q Learning,我们为达到目标分配+1奖励,为达到不想要的状态分配-1奖励 是否有必要对接近目标的行为给予+0.01奖励,对不接近目标的行为给予-0.01奖励 上述奖励政策的重大变化是什么 来自萨顿和巴托的书: 因此,至关重要的是,我们设立的奖励真正表明了我们想要实现的目标。特别是,奖励信号不是向代理传授如何实现我们希望它做的事情的先验知识的地方。3.4例如,一个下棋代理只应在实际获胜时获得奖励,而不是在实现子目标时获得奖励,例如拿走对手的棋子或控制棋盘中心。如果实现这些子目标得到了奖励,那么代理可能会找到一种

我们为达到目标分配+1奖励,为达到不想要的状态分配-1奖励

是否有必要对接近目标的行为给予+0.01奖励,对不接近目标的行为给予-0.01奖励


上述奖励政策的重大变化是什么

来自萨顿和巴托的书:

因此,至关重要的是,我们设立的奖励真正表明了我们想要实现的目标。特别是,奖励信号不是向代理传授如何实现我们希望它做的事情的先验知识的地方。3.4例如,一个下棋代理只应在实际获胜时获得奖励,而不是在实现子目标时获得奖励,例如拿走对手的棋子或控制棋盘中心。如果实现这些子目标得到了奖励,那么代理可能会找到一种在没有实现真正目标的情况下实现这些子目标的方法。例如,它可能会找到一种即使以输掉比赛为代价也能拿走对手棋子的方法。奖励信号是你向机器人传达你希望它实现的目标的方式,而不是你希望它实现的方式

因此,一般来说,避免通过奖励函数引入先验知识是一个好主意,因为它会产生不期望的结果


然而,众所周知,通过奖励函数引导agent学习过程可以提高RL性能。事实上,在一些复杂的任务中,有必要首先将代理引导到次要(更容易的)目标,然后更改奖励以了解主要目标。这项技术被称为
奖励塑造
。在Randløv和Alstrøm的论文中可以找到一个古老但有趣的例子:。

感谢您对奖励形成的回答和建议。!我正在从事一个项目,奖励是在一个环境中生存,并尽可能多地生活。基本上是吃豆人。所以,在我的情况下没有+1奖励。当它被鬼魂杀死时,只需-1奖励。这行吗,?有必要获得积极的奖励吗?事实上,我以前在基于游戏的环境中没有足够的经验,所以我不能给你任何关于吃豆人的具体建议。然而,似乎也有人遇到过类似的问题。我想你可以从阅读别人的作品中得到一些灵感。非常感谢你提出了奖励塑造的概念。我在我的项目中使用了它。它工作得很好。甚至比我为每一个行动指定奖励时更好。我为此训练了很多次,现在我在移除所有额外奖励后进行训练。只有基本的奖励。而现在,它正在采取一些意想不到的聪明举措。谢谢:)哇!很高兴听到我的帮助:)