Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/322.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 一种三维卷积神经网络的实现_Python_Tensorflow_Deep Learning_Conv Neural Network - Fatal编程技术网

Python 一种三维卷积神经网络的实现

Python 一种三维卷积神经网络的实现,python,tensorflow,deep-learning,conv-neural-network,Python,Tensorflow,Deep Learning,Conv Neural Network,我正在努力实现 用于目标检测和跟踪。我不能把心思集中在细节上。我试图为这篇文章寻找评论和解释。我不明白的是: 对于时间信息,我们从过去5个时间戳中获取所有3D点。因此,我们的输入是一个由时间、高度、X和Y组成的四维张量。对于早期融合和晚期融合模型,我们使用Adam优化器从头开始训练,学习率为1e-4。该模型在批量大小为12的4Titan XP GPU服务器上进行训练 我知道CNN的输入如下 [批次大小、通道、X、Y] 但在这里,他们正在考虑 [时间,频道,X,Y] 然后他们提到批量大小是12!我

我正在努力实现 用于目标检测和跟踪。我不能把心思集中在细节上。我试图为这篇文章寻找评论和解释。我不明白的是:

对于时间信息,我们从过去5个时间戳中获取所有3D点。因此,我们的输入是一个由时间、高度、X和Y组成的四维张量。对于早期融合和晚期融合模型,我们使用Adam优化器从头开始训练,学习率为1e-4。该模型在批量大小为12的4Titan XP GPU服务器上进行训练

我知道CNN的输入如下

[批次大小、通道、X、Y]

但在这里,他们正在考虑

[时间,频道,X,Y]

然后他们提到批量大小是12!我不明白的是,他们在哪里考虑批量大小,5个时间戳代表什么

我希望有人能提供见解

因为它们的数据集不是开源的,所以我正在研究KITTI跟踪基准。

< P>如果您考虑,输入形状是:

形状[批次、深度、高度、宽度、通道]

您可以看到批处理维度的去向,并且可以按照自己的意愿进行深入处理。对于临时任务,可以说这代表了一些时间步

好的,特别是他们的情况。他们有一个点云。每个点或体素都处于X、Y位置。此数据点也具有高度。他们非常具体地说:

[…]并将高度尺寸视为通道尺寸

因此,如果我们使用通道最后表示法作为默认的TensorFlow文档,我们有[X,Y,height],即3D点。然后,他们说:

[…]对于时间信息,我们获取过去5个时间戳中的所有3D点


这意味着我们需要一个时间维度,例如,[时间,X,Y,高度],这正是他们所说的,只是他们使用了通道第一符号。有了这个4D张量,我们可以使用3D卷积。然而,我们通常需要它们对批量样品而不是单个样品进行操作。因此批次维度:[批次、时间、X、Y、高度]。具体来说,在他们的情况下,他们使用[12,5,X,Y,height]进行训练,其中batch=12,time=5。

据我所知,他们的输入是4D张量,因此他们使用tf.nn。conv2d@Barriel你能详细说明一下吗?我不确定我understood@OneManArmy设X为具有尺寸[时间、高度、宽度、通道]的输入。如果一个批次中有N个样本batch_size=N,则输入的有效维度将为[batch_size=N、时间、高度、宽度、通道]。@Barriel感谢您的解释。但是你的输入方式是5维的,所以你必须使用三维卷积和tf.nn.conv3d。但在论文中,如果我理解正确的话,他们使用的是二维卷积,所以张量是四维的,这是我无法理解的。@OneManArmy不,他们说我们的方法是一个单级检测器,它将从多个连续的时间帧创建的4D张量作为输入,这很明显,他们按照我的建议做了。N-D卷积在N+1个卷上运行,例如图像的2D conv。它们在N+2体积上运行的事实是一个实施问题,即w.r.t.处理批次。