Machine learning 如果我不使用e-greedy，Q学习算法会产生同样的结果吗？_Machine Learning_Reinforcement Learning

Machine learning 如果我不使用e-greedy，Q学习算法会产生同样的结果吗？

machine-learning

Machine learning 如果我不使用e-greedy，Q学习算法会产生同样的结果吗？,machine-learning,reinforcement-learning,Machine Learning,Reinforcement Learning,我正在尝试实现Q-学习算法，但我没有足够的时间通过e-贪婪选择动作。为了简单起见，我选择了一个随机动作，没有任何适当的理由。这会起作用吗是，随机行动选择将允许Q-learning学习最佳策略。e-贪婪探索的目标是确保所有状态-动作对（渐进地）无限频繁地访问，这是一个收敛要求[]。显然，随机动作选择过程也符合这一要求主要的缺点是，您的代理在整个学习阶段都会表现不佳。此外，可能会影响收敛速度，但我想最后一点非常依赖于应用程序

我正在尝试实现Q-学习算法，但我没有足够的时间通过e-贪婪选择动作。为了简单起见，我选择了一个随机动作，没有任何适当的理由。这会起作用吗

是，随机行动选择将允许

Q-learning

学习最佳策略。e-贪婪探索的目标是确保所有状态-动作对（渐进地）无限频繁地访问，这是一个收敛要求[]。显然，随机动作选择过程也符合这一要求

主要的缺点是，您的代理在整个学习阶段都会表现不佳。此外，可能会影响收敛速度，但我想最后一点非常依赖于应用程序