Neural network 深度强化学习网络的Q值数量

Neural network 深度强化学习网络的Q值数量,neural-network,deep-learning,reinforcement-learning,q-learning,Neural Network,Deep Learning,Reinforcement Learning,Q Learning,我目前正在开发一个深度强化学习网络,但是,我对NN输出的q值数量有点怀疑。我总共有150个q值,这对我个人来说似乎太过分了。我从几份报纸和书上读到这可能是个问题。我知道这取决于我将构建的NN类型,但你们认为q值的数量太高了吗?我应该减少吗?什么是“太多”没有一般原则。一切都完全取决于问题和学习中的吞吐量。特别地,只要Q(a,s)的内部参数化是有效的,那么动作的数量就不一定重要。为了给出一些示例,让我们假设神经网络的形式实际上是NN(a,s)=Q(a,s),换句话说,它接受作为输入的动作以及状态,

我目前正在开发一个深度强化学习网络,但是,我对NN输出的q值数量有点怀疑。我总共有150个q值,这对我个人来说似乎太过分了。我从几份报纸和书上读到这可能是个问题。我知道这取决于我将构建的NN类型,但你们认为q值的数量太高了吗?我应该减少吗?

什么是“太多”没有一般原则。一切都完全取决于问题和学习中的吞吐量。特别地,只要Q(a,s)的内部参数化是有效的,那么动作的数量就不一定重要。为了给出一些示例,让我们假设神经网络的形式实际上是NN(a,s)=Q(a,s),换句话说,它接受作为输入的动作以及状态,并输出Q值。如果这样一个体系结构能够在所考虑的问题上得到训练,那么它可能能够扩展到大的行动空间;另一方面,如果神经网络基本上每个动作都有独立的输出,形式为NN(s)[a]=Q(a,s),那么许多动作会导致模型的学习信号相对稀疏,从而导致收敛缓慢


因为你问的是如何减少动作空间,所以听起来真正的问题有复杂的控制(可能是一个连续的控制域?),你在寻找一些离散化方法,使其更易于学习。如果是这种情况,您将不得不遵循典型的试错方法-尝试简单的动作空间,观察动态,如果结果不令人满意-增加问题的复杂性。这允许进行迭代改进,而不是相反的方向——从过于复杂的设置开始,无法得到任何结果,而不是在不知道什么是“合理值”的情况下减少设置。

什么是“Q值的数量”?你的意思是你有150个行动要采取,因此每个州有150个Q(a,s)要估计吗?是的,确实如此