Tensorflow tf.多项式输出除范围以外的数字

Tensorflow tf.多项式输出除范围以外的数字,tensorflow,deep-learning,reinforcement-learning,tflearn,openai-gym,Tensorflow,Deep Learning,Reinforcement Learning,Tflearn,Openai Gym,我正在使用策略梯度与OpenAI健身房环境合作。我的网络输出的动作高于可能的动作范围 n_outputs = 9 learning_rate = 0.01 initializer = tf.variance_scaling_initializer() X = tf.placeholder(tf.float32, shape=[None, 50, 70, 1]) network = tflearn.conv_2d(X, 32, 5, strides=2, activation='relu')

我正在使用策略梯度与OpenAI健身房环境合作。我的网络输出的动作高于可能的动作范围

n_outputs = 9
learning_rate = 0.01

initializer = tf.variance_scaling_initializer()

X = tf.placeholder(tf.float32, shape=[None, 50, 70, 1])
network = tflearn.conv_2d(X, 32, 5, strides=2, activation='relu')
network = tflearn.max_pool_2d(network, 2)
network = tflearn.conv_2d(network, 32, 5, strides=2, activation='relu')
network = tflearn.max_pool_2d(network, 2)
network = tflearn.fully_connected(network, 256, activation='relu')
hidden = tf.layers.dense(network, 64, activation=tf.nn.relu, kernel_initializer=initializer)
logits = tf.layers.dense(hidden, n_outputs)
outputs = tf.nn.softmax(logits)
action = tf.multinomial(outputs, num_samples=1)
它输出9,这在健身房环境中创建了一个错误


如果遇到数值错误,.

tf.multinomial将在范围外采样,因此换句话说-图形中有NaN。

tf.multinomial如果遇到数值错误,将在范围外采样,换句话说,你的图表中有N。

你能在帖子中添加你得到的确切错误吗?只需复制并通过回溯。您能在您的帖子中添加您得到的确切错误吗?只要复制并通过回溯就可以了。结果是折扣奖励函数规范化中的nan值。很棒的提示!我在奖励标准化方面也有同样的问题!听起来像是tf.多项式中的错误?超级令人困惑的行为。结果证明,折扣奖励函数规范化中有nan值。很棒的提示!我在奖励标准化方面也有同样的问题!听起来像是tf.多项式中的错误?超级混乱的行为。