Machine learning 方程在“；进化策略作为强化学习的可扩展替代方案”；衍生的？_Machine Learning_Reinforcement Learning_Evolutionary Algorithm

Machine learning 方程在“；进化策略作为强化学习的可扩展替代方案”；衍生的？

machine-learning

Machine learning 方程在“；进化策略作为强化学习的可扩展替代方案”；衍生的？,machine-learning,reinforcement-learning,evolutionary-algorithm,Machine Learning,Reinforcement Learning,Evolutionary Algorithm,在OpenAI的论文《进化策略作为强化学习的可伸缩替代品》中，第3页中的等式是如何推导出来的它不是“衍生”的，因为这个方程不是论文中先前方程的自然级数这个公式演示了作者如何选择应用随机梯度上升。这是他们使用的算法的数学表示在这个等式的正下方，他们解释了它是如何工作的：生成的算法重复执行两个阶段：1）随机扰动策略参数并评估通过在环境中运行事件生成的参数，以及 2）结合这些事件的结果，计算一个随机变量梯度估计，并更新参数从一开始就重新开始，慢慢地仔细阅读，可能会有所帮助。如果你遇到

在OpenAI的论文《进化策略作为强化学习的可伸缩替代品》中，第3页中的等式是如何推导出来的

它不是“衍生”的，因为这个方程不是论文中先前方程的自然级数

这个公式演示了作者如何选择应用随机梯度上升。这是他们使用的算法的数学表示

在这个等式的正下方，他们解释了它是如何工作的：

生成的算法重复执行两个阶段：1）随机扰动策略参数并评估通过在环境中运行事件生成的参数，以及 2）结合这些事件的结果，计算一个随机变量梯度估计，并更新参数

从一开始就重新开始，慢慢地仔细阅读，可能会有所帮助。如果你遇到任何不合情理的事情，查一查，在你理解作者想告诉你的内容之前，不要继续阅读论文。

谢谢。我发现这个答案看起来更清楚。@leonexu事实上，在这个特定的网站上，很难对方程问题做出任何有效的回答，因为LaTeX在堆栈溢出上不受支持（但在某些堆栈交换网站上受支持）@werediver刚刚想出了如何接受答案。