Neural network 强化学习:神经网络

Neural network 强化学习:神经网络,neural-network,reinforcement-learning,Neural Network,Reinforcement Learning,当使用神经网络在高状态空间中获得泛化时,输入单位是什么 例如,如果状态向量是一维的,比如说实轴上的位置..那么将只有一个输入单元?(为每个动作提供单独的网络)是的,至少如果您使用类似于Q-learning或Sarsa的算法,函数逼近器应该学习Q-functionQ(s,a)。在您的情况下,如果每个动作使用一个神经网络,则该网络必须近似函数Q(s)。此外,如果状态的维数为1,那么网络将只需要一个输入神经元。是的,至少如果您使用类似于Q-learning或Sarsa的算法,其中函数逼近器应该学习Q-

当使用神经网络在高状态空间中获得泛化时,输入单位是什么


例如,如果状态向量是一维的,比如说实轴上的位置..那么将只有一个输入单元?(为每个动作提供单独的网络)

是的,至少如果您使用类似于Q-learning或Sarsa的算法,函数逼近器应该学习Q-function
Q(s,a)
。在您的情况下,如果每个动作使用一个神经网络,则该网络必须近似函数
Q(s)
。此外,如果状态的维数为1,那么网络将只需要一个输入神经元。

是的,至少如果您使用类似于Q-learning或Sarsa的算法,其中函数逼近器应该学习Q-function
Q(s,a)
。在您的情况下,如果每个动作使用一个神经网络,则该网络必须近似函数
Q(s)
。此外,如果状态的维数为1,那么网络将只需要一个输入神经元。

如果我们想要相同的神经网络,每个状态将有自己的动作,那该怎么办?但是,如果某些行动只有在某些状态下才可能发生,会发生什么?网络不再是完全连接的?我想最简单的解决方案是拥有一个完全连接的网络,如果状态行为的某些组合不可能,例如s0和a2,网络将简单地近似于Q(s0,a2)=0(假设初始Q为零,奖励为正)。我的意思是,策略从不选择s0状态下的动作a2。也许,正如你所建议的,一个自组织网络架构可能会有所帮助,但我不确定。如果我们想要相同的神经网络,每个状态都会有自己的行为呢?但是,如果某些行动只有在某些状态下才可能发生,会发生什么?网络不再是完全连接的?我想最简单的解决方案是拥有一个完全连接的网络,如果状态行为的某些组合不可能,例如s0和a2,网络将简单地近似于Q(s0,a2)=0(假设初始Q为零,奖励为正)。我的意思是,策略从不选择s0状态下的动作a2。也许,正如你所建议的,一个特别的网络架构可能会有所帮助,但我不确定。