Artificial intelligence Qlearningε贪心探索：ε衰减X固定_Artificial Intelligence_Q Learning_Epsilon

Artificial intelligence Qlearningε贪心探索：ε衰减X固定

artificial-intelligence

Artificial intelligence Qlearningε贪心探索：ε衰减X固定,artificial-intelligence,q-learning,epsilon,Artificial Intelligence,Q Learning,Epsilon,我正在教一名特工走出迷宫，用Qlearning收集路上所有的苹果我读到有可能留下一个固定的ε，或者选择一个ε，并随着时间的推移而衰减我找不到每种方法的优点或缺点，如果您能帮助我了解我应该使用哪种方法，我希望听到更多谢谢我假设你指的是“epsilon green exploration”中的epsilon。此参数的目标是控制代理对其当前策略的信任程度。当epsilon值较大时，您的代理将倾向于忽略其策略并选择随机操作。当您的政策相当薄弱时，尤其是在培训开始时，这种探索通常是一个好主意。有时

我正在教一名特工走出迷宫，用Qlearning收集路上所有的苹果

我读到有可能留下一个固定的ε，或者选择一个ε，并随着时间的推移而衰减

我找不到每种方法的优点或缺点，如果您能帮助我了解我应该使用哪种方法，我希望听到更多

谢谢

我假设你指的是“epsilon green exploration”中的epsilon。此参数的目标是控制代理对其当前策略的信任程度。当epsilon值较大时，您的代理将倾向于忽略其策略并选择随机操作。当您的政策相当薄弱时，尤其是在培训开始时，这种探索通常是一个好主意。有时，人们会随着时间的推移而衰退ε，以反映他们的政策越来越好，他们想利用而不是探索

对于每个问题，没有正确的方法来选择ε或其衰减率。最好的方法可能是尝试不同的值。

Hi！谢谢你的回答！你能告诉我一个具体的例子，什么时候不衰减ε并保持它不变是一个好主意吗？我见过的大多数应用程序实际上不衰减，并且保持一个相当小的ε（例如，在整个培训过程中，有时在应用策略时，也会使用

0.05

。但如果您想从更大的ε开始，则衰减它是一个好主意，因为否则您永远无法充分利用和稳定您正在学习的策略。您不想将其设置为零，但在大多数情况下衰减到一个较小的值是很好的。注意关于epsilon的确切值，通常有一定程度的灵活性：设置不同的值可能会允许收敛到类似的策略。关键是将值设置为“小”会使代理陷入局部极小值，因为它探索得不够，而将其设置得太高会阻止它学习任何东西。嗨！谢谢对于答案，你能告诉我一个具体的例子，什么时候不衰减ε并保持它不变是一个好主意吗？我见过的大多数应用程序实际上不会衰减，并且保持一个相当小的ε（例如，在整个培训过程中，有时在应用策略时，也会使用

0.05

。但如果您想从更大的ε开始，则衰减它是一个好主意，因为否则您永远无法充分利用和稳定您正在学习的策略。您不想将其设置为零，但在大多数情况下衰减到一个较小的值是很好的。注意epsilon的确切值通常有一定程度的灵活性：设置不同的值可能会允许收敛到类似的策略。关键是，将值设置为较小会使代理陷入局部极小值，因为它没有进行足够的探索，而将其设置得过高会阻止它学习任何东西。