Asynchronous 使用共享统计优化器实现Tensorflow A3C

Asynchronous 使用共享统计优化器实现Tensorflow A3C,asynchronous,tensorflow,reinforcement-learning,Asynchronous,Tensorflow,Reinforcement Learning,是否有基于开源Tensorflow的A3C强化学习算法的实现,该算法利用优化器和共享统计数据,如原论文所述 *我知道A3C的PyTorch和Chainer版本具有共享的RMSProp统计数据。但是没有找到一个 我要询问的共享RMSProp设置在原始版本的附录7中描述: “…以便在异步优化中应用RMSProp 设置时必须确定元素方向的平方梯度g的移动平均值是共享还是共享 每个线程。我们试验了两个版本的算法。在一个版本中,我们称之为RMSProp, 每个线程都维护自己的g …在另一个版本中,我们称之

是否有基于开源
Tensorflow
的A3C强化学习算法的实现,该算法利用优化器和共享统计数据,如原论文所述

*我知道A3C的
PyTorch
Chainer
版本具有共享的RMSProp统计数据。但是没有找到一个

我要询问的
共享RMSProp
设置在原始版本的附录7中描述:

“…以便在异步优化中应用RMSProp 设置时必须确定元素方向的平方梯度g的移动平均值是共享还是共享 每个线程。我们试验了两个版本的算法。在一个版本中,我们称之为RMSProp, 每个线程都维护自己的g

…在另一个版本中,我们称之为共享 向量g在线程之间共享,并异步更新,无需锁定。共享 线程之间的统计信息也减少了内存需求

…具有共享统计信息的RMSProp往往比 RMSProp具有每线程统计信息,这反过来比动量SGD更健壮。”

这里是一个实现


主训练循环在worker.py中,观察结果在单独的线程中生成

Miyosuda的A3C实现(位于)在训练线程上使用共享的RMSProp统计数据


进一步参考

Yaroslav,感谢您提及此实现,但它确实没有我所说的功能。它使用Adam优化器进行每工作者梯度计算。我将编辑我的问题,使之更具体。谢谢!我忽略了那个存储库。