Neural network 强化学习：神经网络_Neural Network_Reinforcement Learning

Neural network 强化学习：神经网络

neural-network

Neural network 强化学习：神经网络,neural-network,reinforcement-learning,Neural Network,Reinforcement Learning,当使用神经网络在高状态空间中获得泛化时，输入单位是什么例如，如果状态向量是一维的，比如说实轴上的位置..那么将只有一个输入单元？（为每个动作提供单独的网络）是的，至少如果您使用类似于Q-learning或Sarsa的算法，函数逼近器应该学习Q-functionQ（s，a）。在您的情况下，如果每个动作使用一个神经网络，则该网络必须近似函数Q（s）。此外，如果状态的维数为1，那么网络将只需要一个输入神经元。是的，至少如果您使用类似于Q-learning或Sarsa的算法，其中函数逼近器应该学习Q-

当使用神经网络在高状态空间中获得泛化时，输入单位是什么

例如，如果状态向量是一维的，比如说实轴上的位置..那么将只有一个输入单元？（为每个动作提供单独的网络）

是的，至少如果您使用类似于Q-learning或Sarsa的算法，函数逼近器应该学习Q-function

Q（s，a）

。在您的情况下，如果每个动作使用一个神经网络，则该网络必须近似函数

Q（s）

。此外，如果状态的维数为1，那么网络将只需要一个输入神经元。

是的，至少如果您使用类似于Q-learning或Sarsa的算法，其中函数逼近器应该学习Q-function

Q（s，a）

。在您的情况下，如果每个动作使用一个神经网络，则该网络必须近似函数

Q（s）

。此外，如果状态的维数为1，那么网络将只需要一个输入神经元。

如果我们想要相同的神经网络，每个状态将有自己的动作，那该怎么办？但是，如果某些行动只有在某些状态下才可能发生，会发生什么？网络不再是完全连接的？我想最简单的解决方案是拥有一个完全连接的网络，如果状态行为的某些组合不可能，例如s0和a2，网络将简单地近似于Q（s0，a2）=0（假设初始Q为零，奖励为正）。我的意思是，策略从不选择s0状态下的动作a2。也许，正如你所建议的，一个自组织网络架构可能会有所帮助，但我不确定。如果我们想要相同的神经网络，每个状态都会有自己的行为呢？但是，如果某些行动只有在某些状态下才可能发生，会发生什么？网络不再是完全连接的？我想最简单的解决方案是拥有一个完全连接的网络，如果状态行为的某些组合不可能，例如s0和a2，网络将简单地近似于Q（s0，a2）=0（假设初始Q为零，奖励为正）。我的意思是，策略从不选择s0状态下的动作a2。也许，正如你所建议的，一个特别的网络架构可能会有所帮助，但我不确定。