Tensorflow 张量流计算时间随模型尺寸的增加而减少

Tensorflow 张量流计算时间随模型尺寸的增加而减少,tensorflow,Tensorflow,在运行我的实验时,我注意到使用tensorflow和GPU支持时,计算时间出现了奇怪的下降。在每次迭代(1000个学习步骤)中,模型大小增加200个隐藏神经元(具有一个隐藏层的简单全连接神经网络)。现在我测量了每次迭代所需的时间,并注意到不同版本的算法在同一点上的下降。因此,这与机器上的某些外部事件无关,因为实验是连续进行的。在达到一定的模型尺寸后,tensorflow有什么可以利用的吗? 如果您使用的是稀疏矩阵,并且您使用的是L1正则化器,那么在迭代32前后,您可能会通过一个阈值,在该阈值中,

在运行我的实验时,我注意到使用tensorflow和GPU支持时,计算时间出现了奇怪的下降。在每次迭代(1000个学习步骤)中,模型大小增加200个隐藏神经元(具有一个隐藏层的简单全连接神经网络)。现在我测量了每次迭代所需的时间,并注意到不同版本的算法在同一点上的下降。因此,这与机器上的某些外部事件无关,因为实验是连续进行的。在达到一定的模型尺寸后,tensorflow有什么可以利用的吗?

如果您使用的是稀疏矩阵,并且您使用的是L1正则化器,那么在迭代32前后,您可能会通过一个阈值,在该阈值中,L1最终使稀疏矩阵足够稀疏,以便进行矩阵操作优化


根据文档tensorflow.org/api_docs/python/tf/train/AdamOptimizer,Adam使用稀疏矩阵,因此很可能就是这样。请使用动量梯度或香草梯度再试一次。

您能否分享一些更多的实现细节,比如您使用的是哪种优化器,以及更多关于体系结构的信息?例如,该体系结构是一系列密集层还是并行集,或者是否有缓和功能来平滑添加?当然,我使用的是tensorflow中内置的Adam优化器。该模型基本上由两个密集层组成,通过简单地连接一个新的权重矩阵,每个迭代的大小都会增加。因此,模型在整个过程中具有相同数量的层。谢谢你的帮助!图中的不同颜色意味着什么?这些只是对算法的不同修改,与模型架构本身无关。如果使用稀疏矩阵,并且使用L1正则化器,然后,在迭代32前后,您可能会通过一个阈值,在该阈值中,L1最终会使稀疏矩阵足够稀疏,以便进行矩阵操作优化。我只有这些了。根据文档,亚当使用稀疏矩阵,所以很可能就是这样。再次尝试使用动量梯度或香草梯度。