Artificial intelligence 为什么我们在非平稳强化学习中更看重最近的奖励?

Artificial intelligence 为什么我们在非平稳强化学习中更看重最近的奖励?,artificial-intelligence,reinforcement-learning,reward-system,Artificial Intelligence,Reinforcement Learning,Reward System,Barto和Sutton的《强化学习导论》一书提到了以下关于非平稳RL问题的内容- “我们经常会遇到强化学习问题,这些问题实际上是非平稳的。在这种情况下,将最近的奖励比过去的奖励更重是有意义的。”(参见此处- 我并不完全相信这一点。例如,一个任务是为迷宫寻找出口的探险家代理实际上可能会失败,因为它在遥远的过去做出了错误的选择。你能解释一下为什么用简单的术语来衡量最近的奖励是有意义的吗?如果问题是非平稳的,然后,过去的经验越来越过时,应该给予较低的重视。这样,如果一个探险家在遥远的过去犯了一个错误

Barto和Sutton的《强化学习导论》一书提到了以下关于非平稳RL问题的内容-

“我们经常会遇到强化学习问题,这些问题实际上是非平稳的。在这种情况下,将最近的奖励比过去的奖励更重是有意义的。”(参见此处-

我并不完全相信这一点。例如,一个任务是为迷宫寻找出口的探险家代理实际上可能会失败,因为它在遥远的过去做出了错误的选择。
你能解释一下为什么用简单的术语来衡量最近的奖励是有意义的吗?

如果问题是非平稳的,然后,过去的经验越来越过时,应该给予较低的重视。这样,如果一个探险家在遥远的过去犯了一个错误,这个错误就会被最近的经验所覆盖。

这篇文章明确提到了非平稳问题。在这些问题中,MDP特性会发生变化。例如,环境可能会发生变化,因此转移矩阵或奖励函数可能会有所不同。在这种情况下,过去收集的奖励可能不再重要

在您的示例中,MDP是固定的,因为迷宫从不改变,所以您的陈述是正确的。如果(例如)迷宫的出口会根据某种规律(您不知道)发生变化,那么更合理地权衡最近的奖励(例如,如果奖励是从代理位置到出口的曼哈顿距离)


通常,处理非平稳MDP是非常复杂的,因为通常您不知道特性是如何变化的(在上面的示例中,您不知道出口位置是如何变化的)。相反,如果你知道决定环境如何变化的规律,你应该将其包括在MDP模型中。

你能提供更多的细节或来源/示例,说明如何将改变环境的已知规律包括在MDP模型中吗?@Voltronika很抱歉,但我从未研究过非平稳问题。