Neural network 反向传播需要下一状态传播的神经网络强化学习_Neural Network_Reinforcement Learning_Torch_Lstm_Temporal Difference

Neural network 反向传播需要下一状态传播的神经网络强化学习

neural-network

Neural network 反向传播需要下一状态传播的神经网络强化学习,neural-network,reinforcement-learning,torch,lstm,temporal-difference,Neural Network,Reinforcement Learning,Torch,Lstm,Temporal Difference,我试图构建一个包含卷积和LSTM（使用Torch库）的神经网络，通过Q学习或优势学习进行训练，这两种学习都需要在更新状态T的权重之前通过网络传播状态T+1 必须进行额外的传播会降低性能，这很糟糕，但也不太糟糕；然而，问题是，有各种各样的国家与此息息相关。首先，反向传播的Torch实现有一些效率捷径，这些捷径依赖于在正向传播之后立即发生的反向传播，而额外的传播将导致混乱。我可以通过让一个二级克隆网络共享权重值来解决这个问题，但是我们来解决第二个问题涉及LSTM的每个前向传播都是有状态的。当传播网

我试图构建一个包含卷积和LSTM（使用Torch库）的神经网络，通过Q学习或优势学习进行训练，这两种学习都需要在更新状态T的权重之前通过网络传播状态T+1

必须进行额外的传播会降低性能，这很糟糕，但也不太糟糕；然而，问题是，有各种各样的国家与此息息相关。首先，反向传播的Torch实现有一些效率捷径，这些捷径依赖于在正向传播之后立即发生的反向传播，而额外的传播将导致混乱。我可以通过让一个二级克隆网络共享权重值来解决这个问题，但是我们来解决第二个问题

涉及LSTM的每个前向传播都是有状态的。当传播网络（T+1）可能已更改LSTM的内容时，如何更新T+1处的权重？我试着像在TD Gammon中那样讨论TD权重更新，但这对我来说是迟钝的，这是前馈，而不是重复

如何更新T处网络的权重而不必将网络提前到T+1，或者如何将网络提前到T+1，然后返回并调整权重，就好像它仍然是T一样