Time 深度Q学习中的时间限制管理

Time 深度Q学习中的时间限制管理,time,deep-learning,reinforcement-learning,q-learning,Time,Deep Learning,Reinforcement Learning,Q Learning,我正在尝试实现python的Deep RL程序,其中代理必须在时间限制到期之前解决问题(接近目标)。 管理时间的最佳方式是什么?把剩余的时间作为神经网络的输入是个好主意? 我试着这样做(剩余时间作为描述环境状态的条目之一),但算法没有收敛 有什么想法或建议吗? 非常感谢 假设您正在尝试实施深度q学习,我认为最好从奖励中减去剩余时间,如: Q_target = (reward-time_remaining)+gamma*max(Q(s',a))

我正在尝试实现python的Deep RL程序,其中代理必须在时间限制到期之前解决问题(接近目标)。 管理时间的最佳方式是什么?把剩余的时间作为神经网络的输入是个好主意? 我试着这样做(剩余时间作为描述环境状态的条目之一),但算法没有收敛

有什么想法或建议吗?
非常感谢

假设您正在尝试实施深度q学习,我认为最好从奖励中减去剩余时间,如:

Q_target = (reward-time_remaining)+gamma*max(Q(s',a))