Artificial intelligence Qlearningε贪心探索:ε衰减X固定

Artificial intelligence Qlearningε贪心探索:ε衰减X固定,artificial-intelligence,q-learning,epsilon,Artificial Intelligence,Q Learning,Epsilon,我正在教一名特工走出迷宫,用Qlearning收集路上所有的苹果 我读到有可能留下一个固定的ε,或者选择一个ε,并随着时间的推移而衰减 我找不到每种方法的优点或缺点,如果您能帮助我了解我应该使用哪种方法,我希望听到更多 谢谢 我假设你指的是“epsilon green exploration”中的epsilon。此参数的目标是控制代理对其当前策略的信任程度。当epsilon值较大时,您的代理将倾向于忽略其策略并选择随机操作。当您的政策相当薄弱时,尤其是在培训开始时,这种探索通常是一个好主意。有时

我正在教一名特工走出迷宫,用Qlearning收集路上所有的苹果

我读到有可能留下一个固定的ε,或者选择一个ε,并随着时间的推移而衰减

我找不到每种方法的优点或缺点,如果您能帮助我了解我应该使用哪种方法,我希望听到更多


谢谢

我假设你指的是“epsilon green exploration”中的epsilon。此参数的目标是控制代理对其当前策略的信任程度。当epsilon值较大时,您的代理将倾向于忽略其策略并选择随机操作。当您的政策相当薄弱时,尤其是在培训开始时,这种探索通常是一个好主意。有时,人们会随着时间的推移而衰退ε,以反映他们的政策越来越好,他们想利用而不是探索


对于每个问题,没有正确的方法来选择ε或其衰减率。最好的方法可能是尝试不同的值。

我假设你指的是“epsilon green exploration”中的epsilon。此参数的目标是控制代理对其当前策略的信任程度。当epsilon值较大时,您的代理将倾向于忽略其策略并选择随机操作。当您的政策相当薄弱时,尤其是在培训开始时,这种探索通常是一个好主意。有时,人们会随着时间的推移而衰退ε,以反映他们的政策越来越好,他们想利用而不是探索


对于每个问题,没有正确的方法来选择ε或其衰减率。最好的方法可能是尝试不同的值。

Hi!谢谢你的回答!你能告诉我一个具体的例子,什么时候不衰减ε并保持它不变是一个好主意吗?我见过的大多数应用程序实际上不衰减,并且保持一个相当小的ε(例如,在整个培训过程中,有时在应用策略时,也会使用
0.05
。但如果您想从更大的ε开始,则衰减它是一个好主意,因为否则您永远无法充分利用和稳定您正在学习的策略。您不想将其设置为零,但在大多数情况下衰减到一个较小的值是很好的。注意关于epsilon的确切值,通常有一定程度的灵活性:设置不同的值可能会允许收敛到类似的策略。关键是将值设置为“小”会使代理陷入局部极小值,因为它探索得不够,而将其设置得太高会阻止它学习任何东西。嗨!谢谢对于答案,你能告诉我一个具体的例子,什么时候不衰减ε并保持它不变是一个好主意吗?我见过的大多数应用程序实际上不会衰减,并且保持一个相当小的ε(例如,在整个培训过程中,有时在应用策略时,也会使用
0.05
。但如果您想从更大的ε开始,则衰减它是一个好主意,因为否则您永远无法充分利用和稳定您正在学习的策略。您不想将其设置为零,但在大多数情况下衰减到一个较小的值是很好的。注意epsilon的确切值通常有一定程度的灵活性:设置不同的值可能会允许收敛到类似的策略。关键是,将值设置为较小会使代理陷入局部极小值,因为它没有进行足够的探索,而将其设置得过高会阻止它学习任何东西。