Machine learning 不变的奖励如何帮助训练?

Machine learning 不变的奖励如何帮助训练?,machine-learning,neural-network,artificial-intelligence,reinforcement-learning,q-learning,Machine Learning,Neural Network,Artificial Intelligence,Reinforcement Learning,Q Learning,我是机器学习新手,我正在尝试使用Q-Learning解决MountainCar-v0问题。我现在可以解决这个问题了,但我还是很困惑 根据调查,即使汽车已经到达目的地,每走一步的奖励仍然是-1。不变奖励如何帮助代理学习?如果每一步都有相同的回报,那么经纪人如何判断这是一个好的动作还是一个坏的动作 提前谢谢 目标是让汽车尽快到达目的地。如果代理跑得很快,即使奖励仍然是负数,它仍然高于代理跑得相对较慢时所获得的较低奖励。这种差异足以让代理学习。此环境的奖励系统鼓励代理尽快到达其目标目的地,因为它只有在

我是机器学习新手,我正在尝试使用Q-Learning解决MountainCar-v0问题。我现在可以解决这个问题了,但我还是很困惑

根据调查,即使汽车已经到达目的地,每走一步的奖励仍然是-1。不变奖励如何帮助代理学习?如果每一步都有相同的回报,那么经纪人如何判断这是一个好的动作还是一个坏的动作


提前谢谢

目标是让汽车尽快到达目的地。如果代理跑得很快,即使奖励仍然是负数,它仍然高于代理跑得相对较慢时所获得的较低奖励。这种差异足以让代理学习。此环境的奖励系统鼓励代理尽快到达其目标目的地,因为它只有在到达该终端状态时才会停止接收负面奖励