Neural network 反向传播需要下一状态传播的神经网络强化学习

Neural network 反向传播需要下一状态传播的神经网络强化学习,neural-network,reinforcement-learning,torch,lstm,temporal-difference,Neural Network,Reinforcement Learning,Torch,Lstm,Temporal Difference,我试图构建一个包含卷积和LSTM(使用Torch库)的神经网络,通过Q学习或优势学习进行训练,这两种学习都需要在更新状态T的权重之前通过网络传播状态T+1 必须进行额外的传播会降低性能,这很糟糕,但也不太糟糕;然而,问题是,有各种各样的国家与此息息相关。首先,反向传播的Torch实现有一些效率捷径,这些捷径依赖于在正向传播之后立即发生的反向传播,而额外的传播将导致混乱。我可以通过让一个二级克隆网络共享权重值来解决这个问题,但是我们来解决第二个问题 涉及LSTM的每个前向传播都是有状态的。当传播网

我试图构建一个包含卷积和LSTM(使用Torch库)的神经网络,通过Q学习或优势学习进行训练,这两种学习都需要在更新状态T的权重之前通过网络传播状态T+1

必须进行额外的传播会降低性能,这很糟糕,但也不太糟糕;然而,问题是,有各种各样的国家与此息息相关。首先,反向传播的Torch实现有一些效率捷径,这些捷径依赖于在正向传播之后立即发生的反向传播,而额外的传播将导致混乱。我可以通过让一个二级克隆网络共享权重值来解决这个问题,但是我们来解决第二个问题

涉及LSTM的每个前向传播都是有状态的。当传播网络(T+1)可能已更改LSTM的内容时,如何更新T+1处的权重?我试着像在TD Gammon中那样讨论TD权重更新,但这对我来说是迟钝的,这是前馈,而不是重复

如何更新T处网络的权重而不必将网络提前到T+1,或者如何将网络提前到T+1,然后返回并调整权重,就好像它仍然是T一样