Python 一种三维卷积神经网络的实现_Python_Tensorflow_Deep Learning_Conv Neural Network

Python 一种三维卷积神经网络的实现

python tensorflow deep-learning

Python 一种三维卷积神经网络的实现,python,tensorflow,deep-learning,conv-neural-network,Python,Tensorflow,Deep Learning,Conv Neural Network,我正在努力实现用于目标检测和跟踪。我不能把心思集中在细节上。我试图为这篇文章寻找评论和解释。我不明白的是：对于时间信息，我们从过去5个时间戳中获取所有3D点。因此，我们的输入是一个由时间、高度、X和Y组成的四维张量。对于早期融合和晚期融合模型，我们使用Adam优化器从头开始训练，学习率为1e-4。该模型在批量大小为12的4Titan XP GPU服务器上进行训练我知道CNN的输入如下 [批次大小、通道、X、Y] 但在这里，他们正在考虑 [时间，频道，X，Y] 然后他们提到批量大小是12！我

我正在努力实现用于目标检测和跟踪。我不能把心思集中在细节上。我试图为这篇文章寻找评论和解释。我不明白的是：

对于时间信息，我们从过去5个时间戳中获取所有3D点。因此，我们的输入是一个由时间、高度、X和Y组成的四维张量。对于早期融合和晚期融合模型，我们使用Adam优化器从头开始训练，学习率为1e-4。该模型在批量大小为12的4Titan XP GPU服务器上进行训练

我知道CNN的输入如下

[批次大小、通道、X、Y]

但在这里，他们正在考虑

[时间，频道，X，Y]

然后他们提到批量大小是12！我不明白的是，他们在哪里考虑批量大小，5个时间戳代表什么

我希望有人能提供见解

因为它们的数据集不是开源的，所以我正在研究KITTI跟踪基准。

< P>如果您考虑，输入形状是：

形状[批次、深度、高度、宽度、通道]

您可以看到批处理维度的去向，并且可以按照自己的意愿进行深入处理。对于临时任务，可以说这代表了一些时间步

好的，特别是他们的情况。他们有一个点云。每个点或体素都处于X、Y位置。此数据点也具有高度。他们非常具体地说：

[…]并将高度尺寸视为通道尺寸

因此，如果我们使用通道最后表示法作为默认的TensorFlow文档，我们有[X，Y，height]，即3D点。然后，他们说：

[…]对于时间信息，我们获取过去5个时间戳中的所有3D点

这意味着我们需要一个时间维度，例如，[时间，X，Y，高度]，这正是他们所说的，只是他们使用了通道第一符号。有了这个4D张量，我们可以使用3D卷积。然而，我们通常需要它们对批量样品而不是单个样品进行操作。因此批次维度：[批次、时间、X、Y、高度]。具体来说，在他们的情况下，他们使用[12,5,X,Y，height]进行训练，其中batch=12，time=5。

据我所知，他们的输入是4D张量，因此他们使用tf.nn。conv2d@Barriel你能详细说明一下吗？我不确定我understood@OneManArmy设X为具有尺寸[时间、高度、宽度、通道]的输入。如果一个批次中有N个样本batch_size=N，则输入的有效维度将为[batch_size=N、时间、高度、宽度、通道]。@Barriel感谢您的解释。但是你的输入方式是5维的，所以你必须使用三维卷积和tf.nn.conv3d。但在论文中，如果我理解正确的话，他们使用的是二维卷积，所以张量是四维的，这是我无法理解的。@OneManArmy不，他们说我们的方法是一个单级检测器，它将从多个连续的时间帧创建的4D张量作为输入，这很明显，他们按照我的建议做了。N-D卷积在N+1个卷上运行，例如图像的2D conv。它们在N+2体积上运行的事实是一个实施问题，即w.r.t.处理批次。