Artificial intelligence RL代理的临界损失_Artificial Intelligence_Reinforcement Learning

Artificial intelligence RL代理的临界损失

artificial-intelligence

Artificial intelligence RL代理的临界损失,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,当我为各种问题执行代理时……我已经看到我的演员流失正如预期的那样减少。但我的批评损失不断增加，尽管所学到的政策非常重要。这种情况发生在DDPG、PPO等你有没有想过为什么我的批评者越来越少我尝试过使用超参数，这实际上使我的策略更糟。在强化学习中，你真的不应该特别注意损失值的精确值。例如，在监督学习中，它们的信息量并不相同。损失值只应用于计算RL方法的正确更新，但它们实际上并不能真正表明您做得有多好或有多差这是因为在RL中，您的学习目标通常是非平稳的；它们通常是您正在修改的策略的功能（希望有

当我为各种问题执行代理时……我已经看到我的演员流失正如预期的那样减少。但我的批评损失不断增加，尽管所学到的政策非常重要。这种情况发生在DDPG、PPO等

你有没有想过为什么我的批评者越来越少

我尝试过使用超参数，这实际上使我的策略更糟。

在强化学习中，你真的不应该特别注意损失值的精确值。例如，在监督学习中，它们的信息量并不相同。损失值只应用于计算RL方法的正确更新，但它们实际上并不能真正表明您做得有多好或有多差

这是因为在RL中，您的学习目标通常是非平稳的；它们通常是您正在修改的策略的功能（希望有所改进！）。很有可能，随着RL代理性能的提高，您的损失实际上会增加。由于它的改进，它可能会发现搜索空间的新部分，从而产生新的目标值，而您的代理以前完全不知道这些值

衡量代理表现的唯一可靠指标是它在评估运行中收集到的回报。

在强化学习中，通常不应该关注损失值的精确值。例如，在监督学习中，它们的信息量并不相同。损失值只应用于计算RL方法的正确更新，但它们实际上并不能真正表明您做得有多好或有多差

对于代理的表现，唯一真正可靠的指标是它在评估运行中收集的回报