Machine learning Epsilon贪婪q学习中的Epsilon和学习速率衰减_Machine Learning_Reinforcement Learning_Q Learning

Machine learning Epsilon贪婪q学习中的Epsilon和学习速率衰减

machine-learning

Machine learning Epsilon贪婪q学习中的Epsilon和学习速率衰减,machine-learning,reinforcement-learning,q-learning,Machine Learning,Reinforcement Learning,Q Learning,我知道epsilon标志着勘探和开发之间的权衡。一开始，你希望ε值高，这样你就可以大跃进，学到东西。当你了解未来的奖励时，ε应该衰减，这样你就可以利用你发现的更高的Q值然而，在随机环境中，我们的学习速度是否也会随着时间而衰减？我看到的帖子只讨论了ε衰变我们如何设置ε和alpha以使值收敛一开始，你想让epsilon很高，这样你就可以大跃进，学到很多东西我想你弄错了ε和学习率。这个定义实际上与学习率有关学习率衰减学习率是指你在寻找最优政策方面的飞跃程度。就简单的QLearning而言，

我知道epsilon标志着勘探和开发之间的权衡。一开始，你希望ε值高，这样你就可以大跃进，学到东西。当你了解未来的奖励时，ε应该衰减，这样你就可以利用你发现的更高的Q值

然而，在随机环境中，我们的学习速度是否也会随着时间而衰减？我看到的帖子只讨论了ε衰变

我们如何设置ε和alpha以使值收敛

一开始，你想让epsilon很高，这样你就可以大跃进，学到很多东西

我想你弄错了ε和学习率。这个定义实际上与学习率有关

学习率衰减

学习率是指你在寻找最优政策方面的飞跃程度。就简单的QLearning而言，它是指每一步更新Q值的量

更高的alpha意味着您正在大步更新Q值。当代理学习时，您应该将其衰减以稳定模型输出，从而最终收敛到最优策略

ε衰变

当我们根据已有的Q值选择特定动作时，使用ε。例如，如果我们选择纯贪婪方法（epsilon=0），那么我们总是在特定状态的所有q值中选择最高的q值。这导致了探索中的问题，因为我们很容易陷入局部最优

因此，我们引入了一种使用ε的随机性。例如，如果epsilon=0.3，则我们选择概率为0.3的随机动作，而不考虑实际q值

查找有关epsilon贪婪策略的更多详细信息

总之，学习率与你的跳跃幅度有关，而ε与你采取行动的随机性有关。随着学习的进行，两者都应该衰减，以稳定和利用收敛到最优策略的学习策略。

作为所述学习率[衰减]的答案，我想详细阐述一下epsilon贪婪方法，我认为这个问题隐含了一个衰退的epsilon贪婪勘探和开发方法

在训练RL策略期间，平衡探索和开发的一种方法是使用epsilon-greedy方法。例如，=0.3表示概率=0.3时，从动作空间中随机选择输出动作，概率=0.7时，根据argmax（Q）贪婪地选择输出动作

改进的epsilon贪婪方法称为衰减epsilon贪婪方法。例如，在这种方法中，我们训练一个总共有N个时期/事件的策略（这取决于具体问题），算法最初设置=（例如，=0.6），然后在训练时期/事件中逐渐减少到=（例如，=0.1）结束。具体而言，在初始训练过程中，我们让模型更自由地以高概率（例如，=0.6）探索，然后使用以下公式逐渐降低训练时间/事件的速率r：

在这种以极小的探索概率结束的更灵活的选择下，训练过程之后将更加关注利用（即贪婪），而当策略近似收敛时，它仍然可以以极小的概率进行探索

您可以在中看到衰减ε贪心方法的优点。
只是为了澄清，如果ε衰减，策略ε贪心吗？或者在这种情况下它是epsilon soft，或者两者都是？