Artificial intelligence 为什么我们在非平稳强化学习中更看重最近的奖励？_Artificial Intelligence_Reinforcement Learning_Reward System

Artificial intelligence 为什么我们在非平稳强化学习中更看重最近的奖励？

artificial-intelligence

Artificial intelligence 为什么我们在非平稳强化学习中更看重最近的奖励？,artificial-intelligence,reinforcement-learning,reward-system,Artificial Intelligence,Reinforcement Learning,Reward System,Barto和Sutton的《强化学习导论》一书提到了以下关于非平稳RL问题的内容- “我们经常会遇到强化学习问题，这些问题实际上是非平稳的。在这种情况下，将最近的奖励比过去的奖励更重是有意义的。”（参见此处- 我并不完全相信这一点。例如，一个任务是为迷宫寻找出口的探险家代理实际上可能会失败，因为它在遥远的过去做出了错误的选择。你能解释一下为什么用简单的术语来衡量最近的奖励是有意义的吗？如果问题是非平稳的，然后，过去的经验越来越过时，应该给予较低的重视。这样，如果一个探险家在遥远的过去犯了一个错误

Barto和Sutton的《强化学习导论》一书提到了以下关于非平稳RL问题的内容-

“我们经常会遇到强化学习问题，这些问题实际上是非平稳的。在这种情况下，将最近的奖励比过去的奖励更重是有意义的。”（参见此处-

我并不完全相信这一点。例如，一个任务是为迷宫寻找出口的探险家代理实际上可能会失败，因为它在遥远的过去做出了错误的选择。
你能解释一下为什么用简单的术语来衡量最近的奖励是有意义的吗？

如果问题是非平稳的，然后，过去的经验越来越过时，应该给予较低的重视。这样，如果一个探险家在遥远的过去犯了一个错误，这个错误就会被最近的经验所覆盖。

这篇文章明确提到了非平稳问题。在这些问题中，MDP特性会发生变化。例如，环境可能会发生变化，因此转移矩阵或奖励函数可能会有所不同。在这种情况下，过去收集的奖励可能不再重要

在您的示例中，MDP是固定的，因为迷宫从不改变，所以您的陈述是正确的。如果（例如）迷宫的出口会根据某种规律（您不知道）发生变化，那么更合理地权衡最近的奖励（例如，如果奖励是从代理位置到出口的曼哈顿距离）

通常，处理非平稳MDP是非常复杂的，因为通常您不知道特性是如何变化的（在上面的示例中，您不知道出口位置是如何变化的）。相反，如果你知道决定环境如何变化的规律，你应该将其包括在MDP模型中。

你能提供更多的细节或来源/示例，说明如何将改变环境的已知规律包括在MDP模型中吗？@Voltronika很抱歉，但我从未研究过非平稳问题。