Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/cplusplus/128.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C++ SARSA的Zeta变量(lamda)_C++_Machine Learning_Reinforcement Learning_Sarsa - Fatal编程技术网

C++ SARSA的Zeta变量(lamda)

C++ SARSA的Zeta变量(lamda),c++,machine-learning,reinforcement-learning,sarsa,C++,Machine Learning,Reinforcement Learning,Sarsa,泽塔在批评家的方法中代表了什么?我相信它跟踪状态动作对,并代表资格痕迹,这是一个临时记录的国家行动,但究竟是什么Zeta代表,它如何看待在C++中,例如向量双倍?< /p> 评论家 如您所述,zeta代表资格跟踪。这可以直观地理解为包含在所有先前时间步中遇到的所有状态-动作特征向量的衰减混合。这是我们以前看到的东西的痕迹,因此我们也应该对我们现在观察到的奖励给予一点赞扬 更正式地说,如果您想编写增量实现,并且计算时间均匀地分布在RL算法的所有时间步上,那么当以更直接/明显/幼稚的方式编写时,只能

泽塔在批评家的方法中代表了什么?我相信它跟踪状态动作对,并代表资格痕迹,这是一个临时记录的国家行动,但究竟是什么Zeta代表,它如何看待在C++中,例如向量双倍?< /p> 评论家

如您所述,zeta代表资格跟踪。这可以直观地理解为包含在所有先前时间步中遇到的所有状态-动作特征向量的衰减混合。这是我们以前看到的东西的痕迹,因此我们也应该对我们现在观察到的奖励给予一点赞扬

更正式地说,如果您想编写增量实现,并且计算时间均匀地分布在RL算法的所有时间步上,那么当以更直接/明显/幼稚的方式编写时,只能以非增量方式实现,因为它们具有更新规则,需要来自您事件中所有时间步的信息,例如lambda返回/Monte Carlo返回。这听起来可能相当复杂,但最好还是坚持直观的解释

<>至于它在C++中的样子,是的,几乎是双倍向量。在图像中第一行代码之前的z in R^ D正好表示,它是C++中实数的双倍向量或浮点数的d维向量,其中D是状态动作特征向量φ./p>的维数。
您还可以通过需要将它添加到伪码中其他几个位置的其他d维向量phi和θ来判断它必须是d维向量。如果zeta本身也是一个d维向量,那么这只能在数学上正确地解决。

当人们为什么某个问题不适合该站点时,这并不意味着他们希望你复制粘贴完全相同的内容并提问again@Passer如果你真的读到了原因,那是因为我问了很多问题,太宽泛了。你可能想看看我对这个问题所做的编辑,它修正了这个问题,并将其缩小为一个问题。而且,这不是完全相同的问题。那是关于西塔的。这是关于泽塔的。还要注意的是,这个问题的范围不要太广。