Deep learning 在OpenAI基线中,探索是如何工作的?
我开始尝试,特别是deepq算法。我想对传入deepq.learn方法的参数进行自己的分析 该方法有两个与勘探相关的参数-Deep learning 在OpenAI基线中,探索是如何工作的?,deep-learning,reinforcement-learning,openai-gym,baseline,Deep Learning,Reinforcement Learning,Openai Gym,Baseline,我开始尝试,特别是deepq算法。我想对传入deepq.learn方法的参数进行自己的分析 该方法有两个与勘探相关的参数-exploration\u fraction和exploration\u final\u eps 我的理解是-exploration\u fraction决定了算法花费在探索上的训练时间,而exploration\u final\u eps决定了每次探索时采取随机动作的概率。因此,为了探索而采取的随机行动的数量是exploration\u fraction和explorati
exploration\u fraction
和exploration\u final\u eps
我的理解是-exploration\u fraction
决定了算法花费在探索上的训练时间,而exploration\u final\u eps
决定了每次探索时采取随机动作的概率。因此,为了探索而采取的随机行动的数量是exploration\u fraction
和exploration\u final\u eps
的产物。对吗
有人能解释一下(用外行术语)基于这两个参数的算法是如何探索的吗?你的理解几乎是正确的。采取随机行动(即探索性行动)的概率
p
,是一个通常从高开始并随时间减少的数字。这是有道理的,因为在学习阶段开始时,学习策略仍然是无用的,但随着学习的进展,它会变得更好
考虑到这一点,exploration\u fraction
和exploration\u final\u eps
是控制概率p
随时间减少的参数。在中浏览代码时,您会发现以下行:
# Create the schedule for exploration starting from 1.
exploration = LinearSchedule(schedule_timesteps=int(exploration_fraction * total_timesteps),
initial_p=1.0,
final_p=exploration_final_eps)
这里更容易理解exploration\u fraction
和exploration\u final\u eps
的含义:
确定exploration\u fraction
减少的时间(以时间步长为单位)。请注意,在这种情况下,初始值p=1,但初始值可能会有所不同p
确定exploration\u final\u eps
的最小值。一旦概率在p
指示的时间段内降低,exploration\u fraction
将保持固定,其值等于p
exploration\u final\u eps
p
呈线性递减,例如在的情况下,但也可以采用其他方式