Deep learning 在OpenAI基线中，探索是如何工作的？_Deep Learning_Reinforcement Learning_Openai Gym_Baseline

Deep learning 在OpenAI基线中，探索是如何工作的？

deep-learning

Deep learning 在OpenAI基线中，探索是如何工作的？,deep-learning,reinforcement-learning,openai-gym,baseline,Deep Learning,Reinforcement Learning,Openai Gym,Baseline,我开始尝试，特别是deepq算法。我想对传入deepq.learn方法的参数进行自己的分析该方法有两个与勘探相关的参数-exploration\u fraction和exploration\u final\u eps 我的理解是-exploration\u fraction决定了算法花费在探索上的训练时间，而exploration\u final\u eps决定了每次探索时采取随机动作的概率。因此，为了探索而采取的随机行动的数量是exploration\u fraction和explorati

我开始尝试，特别是deepq算法。我想对传入deepq.learn方法的参数进行自己的分析

该方法有两个与勘探相关的参数-

exploration\u fraction

和

exploration\u final\u eps

我的理解是-

exploration\u fraction

决定了算法花费在探索上的训练时间，而

exploration\u final\u eps

决定了每次探索时采取随机动作的概率。因此，为了探索而采取的随机行动的数量是

exploration\u fraction

和

exploration\u final\u eps

的产物。对吗

有人能解释一下（用外行术语）基于这两个参数的算法是如何探索的吗？

你的理解几乎是正确的。采取随机行动（即探索性行动）的概率

，是一个通常从高开始并随时间减少的数字。这是有道理的，因为在学习阶段开始时，学习策略仍然是无用的，但随着学习的进展，它会变得更好

考虑到这一点，

exploration\u fraction

和

exploration\u final\u eps

是控制概率

随时间减少的参数。在中浏览代码时，您会发现以下行：

# Create the schedule for exploration starting from 1.
exploration = LinearSchedule(schedule_timesteps=int(exploration_fraction * total_timesteps),
                             initial_p=1.0,
                             final_p=exploration_final_eps)

这里更容易理解

exploration\u fraction

和

exploration\u final\u eps

的含义：

```
exploration\u fraction
```
确定
```
p
```
减少的时间（以时间步长为单位）。请注意，在这种情况下，初始值p=1，但初始值可能会有所不同
```
exploration\u final\u eps
```
确定
```
p
```
的最小值。一旦概率在
```
exploration\u fraction
```
指示的时间段内降低，
```
p
```
将保持固定，其值等于
```
exploration\u final\u eps
```

有时

呈线性递减，例如在的情况下，但也可以采用其他方式