Artificial intelligence RL代理的临界损失
当我为各种问题执行代理时……我已经看到我的演员流失正如预期的那样减少。但我的批评损失不断增加,尽管所学到的政策非常重要。这种情况发生在DDPG、PPO等 你有没有想过为什么我的批评者越来越少Artificial intelligence RL代理的临界损失,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,当我为各种问题执行代理时……我已经看到我的演员流失正如预期的那样减少。但我的批评损失不断增加,尽管所学到的政策非常重要。这种情况发生在DDPG、PPO等 你有没有想过为什么我的批评者越来越少 我尝试过使用超参数,这实际上使我的策略更糟。在强化学习中,你真的不应该特别注意损失值的精确值。例如,在监督学习中,它们的信息量并不相同。损失值只应用于计算RL方法的正确更新,但它们实际上并不能真正表明您做得有多好或有多差 这是因为在RL中,您的学习目标通常是非平稳的;它们通常是您正在修改的策略的功能(希望有
我尝试过使用超参数,这实际上使我的策略更糟。在强化学习中,你真的不应该特别注意损失值的精确值。例如,在监督学习中,它们的信息量并不相同。损失值只应用于计算RL方法的正确更新,但它们实际上并不能真正表明您做得有多好或有多差 这是因为在RL中,您的学习目标通常是非平稳的;它们通常是您正在修改的策略的功能(希望有所改进!)。很有可能,随着RL代理性能的提高,您的损失实际上会增加。由于它的改进,它可能会发现搜索空间的新部分,从而产生新的目标值,而您的代理以前完全不知道这些值
衡量代理表现的唯一可靠指标是它在评估运行中收集到的回报。在强化学习中,通常不应该关注损失值的精确值。例如,在监督学习中,它们的信息量并不相同。损失值只应用于计算RL方法的正确更新,但它们实际上并不能真正表明您做得有多好或有多差 这是因为在RL中,您的学习目标通常是非平稳的;它们通常是您正在修改的策略的功能(希望有所改进!)。很有可能,随着RL代理性能的提高,您的损失实际上会增加。由于它的改进,它可能会发现搜索空间的新部分,从而产生新的目标值,而您的代理以前完全不知道这些值 对于代理的表现,唯一真正可靠的指标是它在评估运行中收集的回报