Deep learning 如何选择Q值最高的动作

Deep learning 如何选择Q值最高的动作,deep-learning,action,reinforcement-learning,q-learning,Deep Learning,Action,Reinforcement Learning,Q Learning,我已经用经验回放实现了DQN。输入是50x50x1。批量大小为4时,输入将变为(4,50,50,1)。总输出操作数为10。如果批量大小为4,则输出为(4,10)。我想知道如何从这个(4,10)向量中选择最大q值。提前感谢这可能就是您想要的 这将返回给定张量X的单个最大值 在DQN的上下文中,批处理大小为4(4行),您需要选择4个最大Q值,每行一个。您可以通过以下方式执行此操作: X_max = tf.reduce_max(X, axis=1) 其中X是包含具有形状(4,10)的Q值的数据结构。

我已经用经验回放实现了DQN。输入是50x50x1。批量大小为4时,输入将变为(4,50,50,1)。总输出操作数为10。如果批量大小为4,则输出为(4,10)。我想知道如何从这个(4,10)向量中选择最大q值。提前感谢

这可能就是您想要的

这将返回给定张量X的单个最大值

在DQN的上下文中,批处理大小为4(4行),您需要选择4个最大Q值,每行一个。您可以通过以下方式执行此操作:

X_max = tf.reduce_max(X, axis=1)
其中X是包含具有形状(4,10)的Q值的数据结构。
这将在单个张量X_max中返回4个最大Q值,输出形状为(4,1)。

这可能就是您要查找的

这将返回给定张量X的单个最大值

在DQN的上下文中,批处理大小为4(4行),您需要选择4个最大Q值,每行一个。您可以通过以下方式执行此操作:

X_max = tf.reduce_max(X, axis=1)
其中X是包含具有形状(4,10)的Q值的数据结构。 这将返回具有输出形状(4,1)的单个张量X_max中的4个最大Q值