Machine learning 如果我不使用e-greedy,Q学习算法会产生同样的结果吗?
我正在尝试实现Q-学习算法,但我没有足够的时间通过e-贪婪选择动作。为了简单起见,我选择了一个随机动作,没有任何适当的理由。这会起作用吗 是,随机行动选择将允许Machine learning 如果我不使用e-greedy,Q学习算法会产生同样的结果吗?,machine-learning,reinforcement-learning,Machine Learning,Reinforcement Learning,我正在尝试实现Q-学习算法,但我没有足够的时间通过e-贪婪选择动作。为了简单起见,我选择了一个随机动作,没有任何适当的理由。这会起作用吗 是,随机行动选择将允许Q-learning学习最佳策略。e-贪婪探索的目标是确保所有状态-动作对(渐进地)无限频繁地访问,这是一个收敛要求[]。显然,随机动作选择过程也符合这一要求 主要的缺点是,您的代理在整个学习阶段都会表现不佳。此外,可能会影响收敛速度,但我想最后一点非常依赖于应用程序
Q-learning
学习最佳策略。e-贪婪探索的目标是确保所有状态-动作对(渐进地)无限频繁地访问,这是一个收敛要求[]。显然,随机动作选择过程也符合这一要求
主要的缺点是,您的代理在整个学习阶段都会表现不佳。此外,可能会影响收敛速度,但我想最后一点非常依赖于应用程序