Deep learning 在OpenAI基线中,探索是如何工作的?

Deep learning 在OpenAI基线中,探索是如何工作的?,deep-learning,reinforcement-learning,openai-gym,baseline,Deep Learning,Reinforcement Learning,Openai Gym,Baseline,我开始尝试,特别是deepq算法。我想对传入deepq.learn方法的参数进行自己的分析 该方法有两个与勘探相关的参数-exploration\u fraction和exploration\u final\u eps 我的理解是-exploration\u fraction决定了算法花费在探索上的训练时间,而exploration\u final\u eps决定了每次探索时采取随机动作的概率。因此,为了探索而采取的随机行动的数量是exploration\u fraction和explorati

我开始尝试,特别是deepq算法。我想对传入deepq.learn方法的参数进行自己的分析

该方法有两个与勘探相关的参数-
exploration\u fraction
exploration\u final\u eps

我的理解是-
exploration\u fraction
决定了算法花费在探索上的训练时间,而
exploration\u final\u eps
决定了每次探索时采取随机动作的概率。因此,为了探索而采取的随机行动的数量是
exploration\u fraction
exploration\u final\u eps
的产物。对吗


有人能解释一下(用外行术语)基于这两个参数的算法是如何探索的吗?

你的理解几乎是正确的。采取随机行动(即探索性行动)的概率
p
,是一个通常从高开始并随时间减少的数字。这是有道理的,因为在学习阶段开始时,学习策略仍然是无用的,但随着学习的进展,它会变得更好

考虑到这一点,
exploration\u fraction
exploration\u final\u eps
是控制概率
p
随时间减少的参数。在中浏览代码时,您会发现以下行:

# Create the schedule for exploration starting from 1.
exploration = LinearSchedule(schedule_timesteps=int(exploration_fraction * total_timesteps),
                             initial_p=1.0,
                             final_p=exploration_final_eps)
这里更容易理解
exploration\u fraction
exploration\u final\u eps
的含义:

  • exploration\u fraction
    确定
    p
    减少的时间(以时间步长为单位)。请注意,在这种情况下,初始值p=1,但初始值可能会有所不同
  • exploration\u final\u eps
    确定
    p
    的最小值。一旦概率在
    exploration\u fraction
    指示的时间段内降低,
    p
    将保持固定,其值等于
    exploration\u final\u eps
有时
p
呈线性递减,例如在的情况下,但也可以采用其他方式