Dynamic programming 强化学习中状态规范化的理论基础

Dynamic programming 强化学习中状态规范化的理论基础,dynamic-programming,normalization,reinforcement-learning,batch-normalization,Dynamic Programming,Normalization,Reinforcement Learning,Batch Normalization,我知道,规范化观察状态会在强化学习中获得更好的结果。 但我找不到任何理论背景来支持这个理论。我将RL应用于机器人抓取。我接收原始深度传感器值并将其输入一系列卷积层,最后接收512维输出。如果不规范化此输出,代理将无法学习工作策略。但通过应用规范化,它在某种程度上获得了更好的性能。我不是在寻找一个完整的数学证明。相反,一个合乎逻辑的解释就足够了。可能是一个更好的地方,可以提出与强化学习相关的理论问题,所以我建议你在那里提问。如果你在那里问它,请从这里删除它(以避免交叉张贴,这通常是不鼓励的)。

我知道,规范化观察状态会在强化学习中获得更好的结果。 但我找不到任何理论背景来支持这个理论。我将RL应用于机器人抓取。我接收原始深度传感器值并将其输入一系列卷积层,最后接收512维输出。如果不规范化此输出,代理将无法学习工作策略。但通过应用规范化,它在某种程度上获得了更好的性能。我不是在寻找一个完整的数学证明。相反,一个合乎逻辑的解释就足够了。

可能是一个更好的地方,可以提出与强化学习相关的理论问题,所以我建议你在那里提问。如果你在那里问它,请从这里删除它(以避免交叉张贴,这通常是不鼓励的)。