Dynamic programming 强化学习中状态规范化的理论基础_Dynamic Programming_Normalization_Reinforcement Learning_Batch Normalization

Dynamic programming 强化学习中状态规范化的理论基础

Dynamic programming 强化学习中状态规范化的理论基础,dynamic-programming,normalization,reinforcement-learning,batch-normalization,Dynamic Programming,Normalization,Reinforcement Learning,Batch Normalization,我知道，规范化观察状态会在强化学习中获得更好的结果。但我找不到任何理论背景来支持这个理论。我将RL应用于机器人抓取。我接收原始深度传感器值并将其输入一系列卷积层，最后接收512维输出。如果不规范化此输出，代理将无法学习工作策略。但通过应用规范化，它在某种程度上获得了更好的性能。我不是在寻找一个完整的数学证明。相反，一个合乎逻辑的解释就足够了。可能是一个更好的地方，可以提出与强化学习相关的理论问题，所以我建议你在那里提问。如果你在那里问它，请从这里删除它（以避免交叉张贴，这通常是不鼓励的）。

我知道，规范化观察状态会在强化学习中获得更好的结果。但我找不到任何理论背景来支持这个理论。我将RL应用于机器人抓取。我接收原始深度传感器值并将其输入一系列卷积层，最后接收512维输出。如果不规范化此输出，代理将无法学习工作策略。但通过应用规范化，它在某种程度上获得了更好的性能。我不是在寻找一个完整的数学证明。相反，一个合乎逻辑的解释就足够了。

可能是一个更好的地方，可以提出与强化学习相关的理论问题，所以我建议你在那里提问。如果你在那里问它，请从这里删除它（以避免交叉张贴，这通常是不鼓励的）。