Python 为什么q_net有这么多的输入层?
我遵循本教程()介绍了如何使用TF代理实现deepq网络算法,以使用RL解决Cart极点问题 我创建了Python 为什么q_net有这么多的输入层?,python,tensorflow,neural-network,artificial-intelligence,reinforcement-learning,Python,Tensorflow,Neural Network,Artificial Intelligence,Reinforcement Learning,我遵循本教程()介绍了如何使用TF代理实现deepq网络算法,以使用RL解决Cart极点问题 我创建了q\u网络: fc_layer_params = (100,) q_net = q_network.QNetwork( train_env.observation_spec(), train_env.action_spec(), fc_layer_params=fc_layer_params) 当我使用q_net.summary()时,它显示网络有500个输入层:
q\u网络
:
fc_layer_params = (100,)
q_net = q_network.QNetwork(
train_env.observation_spec(),
train_env.action_spec(),
fc_layer_params=fc_layer_params)
当我使用q_net.summary()
时,它显示网络有500个输入层:
Model: "QNetwork"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
EncodingNetwork (EncodingNet multiple 500
_________________________________________________________________
dense_1 (Dense) multiple 202
=================================================================
Total params: 702
Trainable params: 702
Non-trainable params: 0
_________________________________________________________________
time: 3.63 ms (started: 2021-01-16 13:44:09 +00:00)
我想知道为什么输入层的值是500,如果对于cart-pole环境,我们的观察规范和行动规范如下:
Observation Spec:
BoundedArraySpec(shape=(4,), dtype=dtype('float32'), name='observation', minimum=[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], maximum=[4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38])
Action Spec:
BoundedTensorSpec(shape=(), dtype=tf.int64, name='action', minimum=array(0), maximum=array(1))time: 5.24 ms (started: 2021-01-16 13:48:27 +00:00)
这个问题每集的最大时间步长是200,输入层不是应该是200吗?500是参数的数量。如果在密集层中有4个输入节点和100个第一层节点,则总共有500个参数的4x100个权重和100个偏差 进一步的解释是他们给出公式的地方(相当于我上面的计算)
伟大的非常感谢。这样,对于记录,对202个参数应用相同的逻辑,因为我们有100个权重*2输出层(动作空间)+2偏差=202个参数,对吗?是的,没错
output_size * (input_size + 1) == number_parameters