Pytorch 强化学习中探索/开发的最佳实践

Pytorch 强化学习中探索/开发的最佳实践,pytorch,reinforcement-learning,Pytorch,Reinforcement Learning,我的问题是在我对PyTorch DQN教程中的代码进行检查之后提出的,但通常是指强化学习:强化学习中最佳探索/利用的最佳实践是什么 在DQN教程中,steps_done变量是一个全局变量,EPS_DECAY=200。这意味着:经过128步后,ε阈值=0.500;经过889步后,ε阈值=0.0600;1500步后,ε阈值=0.05047 这可能适用于教程中提到的CartPole问题——早期事件可能很短,任务相当简单——但对于需要更多探索的更复杂的问题又如何呢?例如,如果我们有40000集的问题,每

我的问题是在我对PyTorch DQN教程中的代码进行检查之后提出的,但通常是指强化学习:强化学习中最佳探索/利用的最佳实践是什么

在DQN教程中,steps_done变量是一个全局变量,EPS_DECAY=200。这意味着:经过128步后,ε阈值=0.500;经过889步后,ε阈值=0.0600;1500步后,ε阈值=0.05047

这可能适用于教程中提到的CartPole问题——早期事件可能很短,任务相当简单——但对于需要更多探索的更复杂的问题又如何呢?例如,如果我们有40000集的问题,每集有10000个时间步,我们将如何设置epsilon贪婪探索策略?在RL工作中是否有一些经验法则


提前感谢您的帮助。

因此,我想最好使用线性退火epsilon贪婪策略,该策略根据以下步骤更新epsilon:


EXPLORE = 3000000   #how many time steps to play
FINAL_EPSILON = 0.001 # final value of epsilon
INITIAL_EPSILON = 1.0# # starting value of epsilon

if epsilon > FINAL_EPSILON:
            epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE



因此,我想最好使用线性退火epsilon贪婪策略,该策略根据步骤更新epsilon:


EXPLORE = 3000000   #how many time steps to play
FINAL_EPSILON = 0.001 # final value of epsilon
INITIAL_EPSILON = 1.0# # starting value of epsilon

if epsilon > FINAL_EPSILON:
            epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE



非常感谢你的帮助。我将在我的代码中尝试这个。非常感谢您的帮助。我将在我的代码中尝试这个。