Asynchronous 使用共享统计优化器实现Tensorflow A3C_Asynchronous_Tensorflow_Reinforcement Learning

Asynchronous 使用共享统计优化器实现Tensorflow A3C

asynchronous tensorflow

Asynchronous 使用共享统计优化器实现Tensorflow A3C,asynchronous,tensorflow,reinforcement-learning,Asynchronous,Tensorflow,Reinforcement Learning,是否有基于开源Tensorflow的A3C强化学习算法的实现，该算法利用优化器和共享统计数据，如原论文所述 *我知道A3C的PyTorch和Chainer版本具有共享的RMSProp统计数据。但是没有找到一个我要询问的共享RMSProp设置在原始版本的附录7中描述： “…以便在异步优化中应用RMSProp 设置时必须确定元素方向的平方梯度g的移动平均值是共享还是共享每个线程。我们试验了两个版本的算法。在一个版本中，我们称之为RMSProp，每个线程都维护自己的g …在另一个版本中，我们称之

是否有基于开源

Tensorflow

的A3C强化学习算法的实现，该算法利用优化器和共享统计数据，如原论文所述

*我知道A3C的

PyTorch

和

Chainer

版本具有共享的RMSProp统计数据。但是没有找到一个

我要询问的

共享RMSProp

设置在原始版本的附录7中描述：

“…以便在异步优化中应用RMSProp 设置时必须确定元素方向的平方梯度g的移动平均值是共享还是共享每个线程。我们试验了两个版本的算法。在一个版本中，我们称之为RMSProp，每个线程都维护自己的g

…在另一个版本中，我们称之为共享向量g在线程之间共享，并异步更新，无需锁定。共享线程之间的统计信息也减少了内存需求

…具有共享统计信息的RMSProp往往比 RMSProp具有每线程统计信息，这反过来比动量SGD更健壮。”

这里是一个实现

主训练循环在worker.py中，观察结果在单独的线程中生成

Miyosuda的A3C实现（位于）在训练线程上使用共享的RMSProp统计数据

进一步参考

Yaroslav，感谢您提及此实现，但它确实没有我所说的功能。它使用Adam优化器进行每工作者梯度计算。我将编辑我的问题，使之更具体。谢谢！我忽略了那个存储库。