Pytorch 强化学习中探索/开发的最佳实践_Pytorch_Reinforcement Learning

Pytorch 强化学习中探索/开发的最佳实践

pytorch

Pytorch 强化学习中探索/开发的最佳实践,pytorch,reinforcement-learning,Pytorch,Reinforcement Learning,我的问题是在我对PyTorch DQN教程中的代码进行检查之后提出的，但通常是指强化学习：强化学习中最佳探索/利用的最佳实践是什么在DQN教程中，steps_done变量是一个全局变量，EPS_DECAY=200。这意味着：经过128步后，ε阈值=0.500；经过889步后，ε阈值=0.0600；1500步后，ε阈值=0.05047 这可能适用于教程中提到的CartPole问题——早期事件可能很短，任务相当简单——但对于需要更多探索的更复杂的问题又如何呢？例如，如果我们有40000集的问题，每

我的问题是在我对PyTorch DQN教程中的代码进行检查之后提出的，但通常是指强化学习：强化学习中最佳探索/利用的最佳实践是什么

在DQN教程中，steps_done变量是一个全局变量，EPS_DECAY=200。这意味着：经过128步后，ε阈值=0.500；经过889步后，ε阈值=0.0600；1500步后，ε阈值=0.05047

这可能适用于教程中提到的CartPole问题——早期事件可能很短，任务相当简单——但对于需要更多探索的更复杂的问题又如何呢？例如，如果我们有40000集的问题，每集有10000个时间步，我们将如何设置epsilon贪婪探索策略？在RL工作中是否有一些经验法则

提前感谢您的帮助。

因此，我想最好使用线性退火epsilon贪婪策略，该策略根据以下步骤更新epsilon：


EXPLORE = 3000000   #how many time steps to play
FINAL_EPSILON = 0.001 # final value of epsilon
INITIAL_EPSILON = 1.0# # starting value of epsilon

if epsilon > FINAL_EPSILON:
            epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE

因此，我想最好使用线性退火epsilon贪婪策略，该策略根据步骤更新epsilon：


EXPLORE = 3000000   #how many time steps to play
FINAL_EPSILON = 0.001 # final value of epsilon
INITIAL_EPSILON = 1.0# # starting value of epsilon

if epsilon > FINAL_EPSILON:
            epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE

非常感谢你的帮助。我将在我的代码中尝试这个。非常感谢您的帮助。我将在我的代码中尝试这个。