Machine learning 方程在“;进化策略作为强化学习的可扩展替代方案”;衍生的?

Machine learning 方程在“;进化策略作为强化学习的可扩展替代方案”;衍生的?,machine-learning,reinforcement-learning,evolutionary-algorithm,Machine Learning,Reinforcement Learning,Evolutionary Algorithm,在OpenAI的论文《进化策略作为强化学习的可伸缩替代品》中,第3页中的等式是如何推导出来的 它不是“衍生”的,因为这个方程不是论文中先前方程的自然级数 这个公式演示了作者如何选择应用随机梯度上升。这是他们使用的算法的数学表示 在这个等式的正下方,他们解释了它是如何工作的: 生成的算法重复执行两个阶段:1) 随机扰动策略参数并评估 通过在环境中运行事件生成的参数,以及 2) 结合这些事件的结果,计算一个随机变量 梯度估计,并更新参数 从一开始就重新开始,慢慢地仔细阅读,可能会有所帮助。如果你遇到

在OpenAI的论文《进化策略作为强化学习的可伸缩替代品》中,第3页中的等式是如何推导出来的

它不是“衍生”的,因为这个方程不是论文中先前方程的自然级数

这个公式演示了作者如何选择应用随机梯度上升。这是他们使用的算法的数学表示

在这个等式的正下方,他们解释了它是如何工作的:

生成的算法重复执行两个阶段:1) 随机扰动策略参数并评估 通过在环境中运行事件生成的参数,以及 2) 结合这些事件的结果,计算一个随机变量 梯度估计,并更新参数


从一开始就重新开始,慢慢地仔细阅读,可能会有所帮助。如果你遇到任何不合情理的事情,查一查,在你理解作者想告诉你的内容之前,不要继续阅读论文。

谢谢。我发现这个答案看起来更清楚。@leonexu事实上,在这个特定的网站上,很难对方程问题做出任何有效的回答,因为LaTeX在堆栈溢出上不受支持(但在某些堆栈交换网站上受支持)@werediver刚刚想出了如何接受答案。