Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/python-2.7/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Artificial intelligence RL代理的临界损失_Artificial Intelligence_Reinforcement Learning - Fatal编程技术网

Artificial intelligence RL代理的临界损失

Artificial intelligence RL代理的临界损失,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,当我为各种问题执行代理时……我已经看到我的演员流失正如预期的那样减少。但我的批评损失不断增加,尽管所学到的政策非常重要。这种情况发生在DDPG、PPO等 你有没有想过为什么我的批评者越来越少 我尝试过使用超参数,这实际上使我的策略更糟。在强化学习中,你真的不应该特别注意损失值的精确值。例如,在监督学习中,它们的信息量并不相同。损失值只应用于计算RL方法的正确更新,但它们实际上并不能真正表明您做得有多好或有多差 这是因为在RL中,您的学习目标通常是非平稳的;它们通常是您正在修改的策略的功能(希望有

当我为各种问题执行代理时……我已经看到我的演员流失正如预期的那样减少。但我的批评损失不断增加,尽管所学到的政策非常重要。这种情况发生在DDPG、PPO等

你有没有想过为什么我的批评者越来越少


我尝试过使用超参数,这实际上使我的策略更糟。

在强化学习中,你真的不应该特别注意损失值的精确值。例如,在监督学习中,它们的信息量并不相同。损失值只应用于计算RL方法的正确更新,但它们实际上并不能真正表明您做得有多好或有多差

这是因为在RL中,您的学习目标通常是非平稳的;它们通常是您正在修改的策略的功能(希望有所改进!)。很有可能,随着RL代理性能的提高,您的损失实际上会增加。由于它的改进,它可能会发现搜索空间的新部分,从而产生新的目标值,而您的代理以前完全不知道这些值


衡量代理表现的唯一可靠指标是它在评估运行中收集到的回报。

在强化学习中,通常不应该关注损失值的精确值。例如,在监督学习中,它们的信息量并不相同。损失值只应用于计算RL方法的正确更新,但它们实际上并不能真正表明您做得有多好或有多差

这是因为在RL中,您的学习目标通常是非平稳的;它们通常是您正在修改的策略的功能(希望有所改进!)。很有可能,随着RL代理性能的提高,您的损失实际上会增加。由于它的改进,它可能会发现搜索空间的新部分,从而产生新的目标值,而您的代理以前完全不知道这些值

对于代理的表现,唯一真正可靠的指标是它在评估运行中收集的回报