Tensorflow tf.多项式输出除范围以外的数字_Tensorflow_Deep Learning_Reinforcement Learning_Tflearn_Openai Gym

Tensorflow tf.多项式输出除范围以外的数字

tensorflow deep-learning

Tensorflow tf.多项式输出除范围以外的数字,tensorflow,deep-learning,reinforcement-learning,tflearn,openai-gym,Tensorflow,Deep Learning,Reinforcement Learning,Tflearn,Openai Gym,我正在使用策略梯度与OpenAI健身房环境合作。我的网络输出的动作高于可能的动作范围 n_outputs = 9 learning_rate = 0.01 initializer = tf.variance_scaling_initializer() X = tf.placeholder(tf.float32, shape=[None, 50, 70, 1]) network = tflearn.conv_2d(X, 32, 5, strides=2, activation='relu')

我正在使用策略梯度与OpenAI健身房环境合作。我的网络输出的动作高于可能的动作范围

n_outputs = 9
learning_rate = 0.01

initializer = tf.variance_scaling_initializer()

X = tf.placeholder(tf.float32, shape=[None, 50, 70, 1])
network = tflearn.conv_2d(X, 32, 5, strides=2, activation='relu')
network = tflearn.max_pool_2d(network, 2)
network = tflearn.conv_2d(network, 32, 5, strides=2, activation='relu')
network = tflearn.max_pool_2d(network, 2)
network = tflearn.fully_connected(network, 256, activation='relu')
hidden = tf.layers.dense(network, 64, activation=tf.nn.relu, kernel_initializer=initializer)
logits = tf.layers.dense(hidden, n_outputs)
outputs = tf.nn.softmax(logits)
action = tf.multinomial(outputs, num_samples=1)

它输出9，这在健身房环境中创建了一个错误

如果遇到数值错误，.

tf.multinomial将在范围外采样，因此换句话说-图形中有NaN。

tf.multinomial如果遇到数值错误，将在范围外采样，换句话说，你的图表中有N。

你能在帖子中添加你得到的确切错误吗？只需复制并通过回溯。您能在您的帖子中添加您得到的确切错误吗？只要复制并通过回溯就可以了。结果是折扣奖励函数规范化中的nan值。很棒的提示！我在奖励标准化方面也有同样的问题！听起来像是tf.多项式中的错误？超级令人困惑的行为。结果证明，折扣奖励函数规范化中有nan值。很棒的提示！我在奖励标准化方面也有同样的问题！听起来像是tf.多项式中的错误？超级混乱的行为。