Neural network 深度强化学习网络的Q值数量_Neural Network_Deep Learning_Reinforcement Learning_Q Learning

Neural network 深度强化学习网络的Q值数量

neural-network deep-learning

Neural network 深度强化学习网络的Q值数量,neural-network,deep-learning,reinforcement-learning,q-learning,Neural Network,Deep Learning,Reinforcement Learning,Q Learning,我目前正在开发一个深度强化学习网络，但是，我对NN输出的q值数量有点怀疑。我总共有150个q值，这对我个人来说似乎太过分了。我从几份报纸和书上读到这可能是个问题。我知道这取决于我将构建的NN类型，但你们认为q值的数量太高了吗？我应该减少吗？什么是“太多”没有一般原则。一切都完全取决于问题和学习中的吞吐量。特别地，只要Q（a，s）的内部参数化是有效的，那么动作的数量就不一定重要。为了给出一些示例，让我们假设神经网络的形式实际上是NN（a，s）=Q（a，s），换句话说，它接受作为输入的动作以及状态，

我目前正在开发一个深度强化学习网络，但是，我对NN输出的q值数量有点怀疑。我总共有150个q值，这对我个人来说似乎太过分了。我从几份报纸和书上读到这可能是个问题。我知道这取决于我将构建的NN类型，但你们认为q值的数量太高了吗？我应该减少吗？

什么是“太多”没有一般原则。一切都完全取决于问题和学习中的吞吐量。特别地，只要Q（a，s）的内部参数化是有效的，那么动作的数量就不一定重要。为了给出一些示例，让我们假设神经网络的形式实际上是NN（a，s）=Q（a，s），换句话说，它接受作为输入的动作以及状态，并输出Q值。如果这样一个体系结构能够在所考虑的问题上得到训练，那么它可能能够扩展到大的行动空间；另一方面，如果神经网络基本上每个动作都有独立的输出，形式为NN（s）[a]=Q（a，s），那么许多动作会导致模型的学习信号相对稀疏，从而导致收敛缓慢

因为你问的是如何减少动作空间，所以听起来真正的问题有复杂的控制（可能是一个连续的控制域？），你在寻找一些离散化方法，使其更易于学习。如果是这种情况，您将不得不遵循典型的试错方法-尝试简单的动作空间，观察动态，如果结果不令人满意-增加问题的复杂性。这允许进行迭代改进，而不是相反的方向——从过于复杂的设置开始，无法得到任何结果，而不是在不知道什么是“合理值”的情况下减少设置。

什么是“Q值的数量”？你的意思是你有150个行动要采取，因此每个州有150个Q（a，s）要估计吗？是的，确实如此