Machine learning 不变的奖励如何帮助训练？_Machine Learning_Neural Network_Artificial Intelligence_Reinforcement Learning_Q Learning

Machine learning 不变的奖励如何帮助训练？

machine-learning neural-network artificial-intelligence

Machine learning 不变的奖励如何帮助训练？,machine-learning,neural-network,artificial-intelligence,reinforcement-learning,q-learning,Machine Learning,Neural Network,Artificial Intelligence,Reinforcement Learning,Q Learning,我是机器学习新手，我正在尝试使用Q-Learning解决MountainCar-v0问题。我现在可以解决这个问题了，但我还是很困惑根据调查，即使汽车已经到达目的地，每走一步的奖励仍然是-1。不变奖励如何帮助代理学习？如果每一步都有相同的回报，那么经纪人如何判断这是一个好的动作还是一个坏的动作提前谢谢目标是让汽车尽快到达目的地。如果代理跑得很快，即使奖励仍然是负数，它仍然高于代理跑得相对较慢时所获得的较低奖励。这种差异足以让代理学习。此环境的奖励系统鼓励代理尽快到达其目标目的地，因为它只有在

我是机器学习新手，我正在尝试使用Q-Learning解决MountainCar-v0问题。我现在可以解决这个问题了，但我还是很困惑

根据调查，即使汽车已经到达目的地，每走一步的奖励仍然是-1。不变奖励如何帮助代理学习？如果每一步都有相同的回报，那么经纪人如何判断这是一个好的动作还是一个坏的动作

提前谢谢

目标是让汽车尽快到达目的地。如果代理跑得很快，即使奖励仍然是负数，它仍然高于代理跑得相对较慢时所获得的较低奖励。这种差异足以让代理学习。此环境的奖励系统鼓励代理尽快到达其目标目的地，因为它只有在到达该终端状态时才会停止接收负面奖励