Artificial intelligence 策略梯度：策略参数问题的初始化_Artificial Intelligence_Gradient_Reinforcement Learning_Baseline

Artificial intelligence 策略梯度：策略参数问题的初始化

artificial-intelligence

Artificial intelligence 策略梯度：策略参数问题的初始化,artificial-intelligence,gradient,reinforcement-learning,baseline,Artificial Intelligence,Gradient,Reinforcement Learning,Baseline,我在初始化书中强化算法的策略参数θ时遇到一些问题：强化学习：导论，第二版，第12章，萨顿和巴托以下是该算法的伪代码：他们说您可以用任意值初始化θ（策略参数），例如0。但我得到了完全错误的结果：为了解决这个问题，我必须以这样的方式初始化它们，使它们对应于Epsilon贪婪策略。这可以通过考虑使用动作首选项来实现： Probability(LEFT) = e^Theta[1] / (e^Theta[1] + e^Theta[2]) Probability(RIGHT) = e^Thet

我在初始化书中强化算法的策略参数θ时遇到一些问题：强化学习：导论，第二版，第12章，萨顿和巴托

以下是该算法的伪代码：

他们说您可以用任意值初始化θ（策略参数），例如0。但我得到了完全错误的结果：

为了解决这个问题，我必须以这样的方式初始化它们，使它们对应于Epsilon贪婪策略。这可以通过考虑使用动作首选项来实现：

Probability(LEFT)  = e^Theta[1] / (e^Theta[1] + e^Theta[2])
Probability(RIGHT) = e^Theta[2] / (e^Theta[1] + e^Theta[2])

例如，解决第二个问题（使用p=Epsilon/2）以及概率（右）=p和两个概率之和等于1的事实：

 Theta[1] = ln(p / (1 - p)) + Theta[2]

因此，给出

Theta[2]

任何值，并使用上面的偏移量来计算

Theta[1]

会产生书中的结果（很抱歉在第一张图片上颠倒了字母）：

所以我不知道为什么初始值应该模仿Epsilon贪婪策略，也不知道在书中提到的将它们设置为0时会出现什么错误

另一个问题是，在比较强化算法时，不同字母的顺序正好相反，如本书图13.1所示。人们认为Alpha=2^-14的表现优于所有人，而不是更差

如有任何帮助和澄清，将不胜感激

我在Lua中实现了这一点：

多谢各位