Python 为什么q_net有这么多的输入层？_Python_Tensorflow_Neural Network_Artificial Intelligence_Reinforcement Learning

Python 为什么q_net有这么多的输入层？

python tensorflow neural-network artificial-intelligence

Python 为什么q_net有这么多的输入层？,python,tensorflow,neural-network,artificial-intelligence,reinforcement-learning,Python,Tensorflow,Neural Network,Artificial Intelligence,Reinforcement Learning,我遵循本教程（）介绍了如何使用TF代理实现deepq网络算法，以使用RL解决Cart极点问题我创建了q\u网络： fc_layer_params = (100,) q_net = q_network.QNetwork( train_env.observation_spec(), train_env.action_spec(), fc_layer_params=fc_layer_params) 当我使用q_net.summary（）时，它显示网络有500个输入层：

我遵循本教程（）介绍了如何使用TF代理实现deepq网络算法，以使用RL解决Cart极点问题

我创建了

q\u网络

：

fc_layer_params = (100,)

q_net = q_network.QNetwork(
    train_env.observation_spec(),
    train_env.action_spec(),
    fc_layer_params=fc_layer_params)

当我使用

q_net.summary（）

时，它显示网络有500个输入层：

    Model: "QNetwork"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
EncodingNetwork (EncodingNet multiple                  500       
_________________________________________________________________
dense_1 (Dense)              multiple                  202       
=================================================================
Total params: 702
Trainable params: 702
Non-trainable params: 0
_________________________________________________________________
time: 3.63 ms (started: 2021-01-16 13:44:09 +00:00)

我想知道为什么输入层的值是500，如果对于cart-pole环境，我们的观察规范和行动规范如下：

Observation Spec:
BoundedArraySpec(shape=(4,), dtype=dtype('float32'), name='observation', minimum=[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], maximum=[4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38])

Action Spec:
BoundedTensorSpec(shape=(), dtype=tf.int64, name='action', minimum=array(0), maximum=array(1))time: 5.24 ms (started: 2021-01-16 13:48:27 +00:00)

这个问题每集的最大时间步长是200，输入层不是应该是200吗？

500是参数的数量。如果在密集层中有4个输入节点和100个第一层节点，则总共有500个参数的4x100个权重和100个偏差

进一步的解释是他们给出公式的地方（相当于我上面的计算）

伟大的非常感谢。这样，对于记录，对202个参数应用相同的逻辑，因为我们有100个权重*2输出层（动作空间）+2偏差=202个参数，对吗？是的，没错

output_size * (input_size + 1) == number_parameters