Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/ios/119.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning Epsilon贪婪q学习中的Epsilon和学习速率衰减_Machine Learning_Reinforcement Learning_Q Learning - Fatal编程技术网

Machine learning Epsilon贪婪q学习中的Epsilon和学习速率衰减

Machine learning Epsilon贪婪q学习中的Epsilon和学习速率衰减,machine-learning,reinforcement-learning,q-learning,Machine Learning,Reinforcement Learning,Q Learning,我知道epsilon标志着勘探和开发之间的权衡。一开始,你希望ε值高,这样你就可以大跃进,学到东西。当你了解未来的奖励时,ε应该衰减,这样你就可以利用你发现的更高的Q值 然而,在随机环境中,我们的学习速度是否也会随着时间而衰减?我看到的帖子只讨论了ε衰变 我们如何设置ε和alpha以使值收敛 一开始,你想让epsilon很高,这样你就可以大跃进,学到很多东西 我想你弄错了ε和学习率。这个定义实际上与学习率有关 学习率衰减 学习率是指你在寻找最优政策方面的飞跃程度。就简单的QLearning而言,

我知道epsilon标志着勘探和开发之间的权衡。一开始,你希望ε值高,这样你就可以大跃进,学到东西。当你了解未来的奖励时,ε应该衰减,这样你就可以利用你发现的更高的Q值

然而,在随机环境中,我们的学习速度是否也会随着时间而衰减?我看到的帖子只讨论了ε衰变

我们如何设置ε和alpha以使值收敛

一开始,你想让epsilon很高,这样你就可以大跃进,学到很多东西

我想你弄错了ε和学习率。这个定义实际上与学习率有关

学习率衰减

学习率是指你在寻找最优政策方面的飞跃程度。就简单的QLearning而言,它是指每一步更新Q值的量

更高的alpha意味着您正在大步更新Q值。当代理学习时,您应该将其衰减以稳定模型输出,从而最终收敛到最优策略

ε衰变

当我们根据已有的Q值选择特定动作时,使用ε。例如,如果我们选择纯贪婪方法(epsilon=0),那么我们总是在特定状态的所有q值中选择最高的q值。这导致了探索中的问题,因为我们很容易陷入局部最优

因此,我们引入了一种使用ε的随机性。例如,如果epsilon=0.3,则我们选择概率为0.3的随机动作,而不考虑实际q值

查找有关epsilon贪婪策略的更多详细信息

总之,学习率与你的跳跃幅度有关,而ε与你采取行动的随机性有关。随着学习的进行,两者都应该衰减,以稳定和利用收敛到最优策略的学习策略。

作为所述学习率[衰减]的答案,我想详细阐述一下epsilon贪婪方法,我认为这个问题隐含了一个衰退的epsilon贪婪勘探和开发方法

在训练RL策略期间,平衡探索和开发的一种方法是使用epsilon-greedy方法。例如,=0.3表示概率=0.3时,从动作空间中随机选择输出动作,概率=0.7时,根据argmax(Q)贪婪地选择输出动作

改进的epsilon贪婪方法称为衰减epsilon贪婪方法。 例如,在这种方法中,我们训练一个总共有N个时期/事件的策略(这取决于具体问题),算法最初设置=(例如,=0.6),然后在训练时期/事件中逐渐减少到=(例如,=0.1)结束。 具体而言,在初始训练过程中,我们让模型更自由地以高概率(例如,=0.6)探索,然后使用以下公式逐渐降低训练时间/事件的速率r:

在这种以极小的探索概率结束的更灵活的选择下,训练过程之后将更加关注利用(即贪婪),而当策略近似收敛时,它仍然可以以极小的概率进行探索


您可以在中看到衰减ε贪心方法的优点。

只是为了澄清,如果ε衰减,策略ε贪心吗?或者在这种情况下它是epsilon soft,或者两者都是?