Time 深度Q学习中的时间限制管理_Time_Deep Learning_Reinforcement Learning_Q Learning

Time 深度Q学习中的时间限制管理

time deep-learning

Time 深度Q学习中的时间限制管理,time,deep-learning,reinforcement-learning,q-learning,Time,Deep Learning,Reinforcement Learning,Q Learning,我正在尝试实现python的Deep RL程序，其中代理必须在时间限制到期之前解决问题（接近目标）。管理时间的最佳方式是什么？把剩余的时间作为神经网络的输入是个好主意？我试着这样做（剩余时间作为描述环境状态的条目之一），但算法没有收敛有什么想法或建议吗？非常感谢假设您正在尝试实施深度q学习，我认为最好从奖励中减去剩余时间，如： Q_target = (reward-time_remaining)+gamma*max(Q(s',a))

我正在尝试实现python的Deep RL程序，其中代理必须在时间限制到期之前解决问题（接近目标）。管理时间的最佳方式是什么？把剩余的时间作为神经网络的输入是个好主意？我试着这样做（剩余时间作为描述环境状态的条目之一），但算法没有收敛

有什么想法或建议吗？

非常感谢

假设您正在尝试实施深度q学习，我认为最好从奖励中减去剩余时间，如：

Q_target = (reward-time_remaining)+gamma*max(Q(s',a))