Artificial intelligence 策略梯度:策略参数问题的初始化

Artificial intelligence 策略梯度:策略参数问题的初始化,artificial-intelligence,gradient,reinforcement-learning,baseline,Artificial Intelligence,Gradient,Reinforcement Learning,Baseline,我在初始化书中强化算法的策略参数θ时遇到一些问题: 强化学习:导论,第二版,第12章,萨顿和巴托 以下是该算法的伪代码: 他们说您可以用任意值初始化θ(策略参数),例如0。但我得到了完全错误的结果: 为了解决这个问题,我必须以这样的方式初始化它们,使它们对应于Epsilon贪婪策略。这可以通过考虑使用动作首选项来实现: Probability(LEFT) = e^Theta[1] / (e^Theta[1] + e^Theta[2]) Probability(RIGHT) = e^Thet

我在初始化书中强化算法的策略参数θ时遇到一些问题: 强化学习:导论,第二版,第12章,萨顿和巴托

以下是该算法的伪代码:

他们说您可以用任意值初始化θ(策略参数),例如0。但我得到了完全错误的结果:

为了解决这个问题,我必须以这样的方式初始化它们,使它们对应于Epsilon贪婪策略。这可以通过考虑使用动作首选项来实现:

Probability(LEFT)  = e^Theta[1] / (e^Theta[1] + e^Theta[2])
Probability(RIGHT) = e^Theta[2] / (e^Theta[1] + e^Theta[2])
例如,解决第二个问题(使用p=Epsilon/2)以及概率(右)=p和两个概率之和等于1的事实:

 Theta[1] = ln(p / (1 - p)) + Theta[2]
因此,给出
Theta[2]
任何值,并使用上面的偏移量来计算
Theta[1]
会产生书中的结果(很抱歉在第一张图片上颠倒了字母):

所以我不知道为什么初始值应该模仿Epsilon贪婪策略,也不知道在书中提到的将它们设置为0时会出现什么错误

另一个问题是,在比较强化算法时,不同字母的顺序正好相反,如本书图13.1所示。人们认为Alpha=2^-14的表现优于所有人,而不是更差

如有任何帮助和澄清,将不胜感激

我在Lua中实现了这一点:

多谢各位