Parallel processing TensorFlow tf.nn.conv2d并行化_Parallel Processing_Tensorflow

Parallel processing TensorFlow tf.nn.conv2d并行化

parallel-processing tensorflow

Parallel processing TensorFlow tf.nn.conv2d并行化,parallel-processing,tensorflow,Parallel Processing,Tensorflow,当批量大小等于1时，是否有办法使用GPU并行化TensorFlow中的tf.nn.conv2d操作我只想给我的CNN一张图像，我想在GPU上并行计算。据我所知，对于批量大小为1的情况，TensorFlow无法高效并行，因为CPU上的处理速度更快。映像有多大？对于批量大小的建议是填满GPU内存，因此如果GPU有事情要做，那么理想情况下，您感兴趣的单个映像大约有这么大。如果不是，那么问题是：你想优化什么？如果是服务延迟，一次传输一个到GPU可能会有太多的开销。对于批量大小为1的CPU和GPU都将是

当批量大小等于1时，是否有办法使用GPU并行化TensorFlow中的tf.nn.conv2d操作

我只想给我的CNN一张图像，我想在GPU上并行计算。据我所知，对于批量大小为1的情况，TensorFlow无法高效并行，因为CPU上的处理速度更快。

映像有多大？对于批量大小的建议是填满GPU内存，因此如果GPU有事情要做，那么理想情况下，您感兴趣的单个映像大约有这么大。如果不是，那么问题是：你想优化什么？如果是服务延迟，一次传输一个到GPU可能会有太多的开销。对于批量大小为1的CPU和GPU都将是低效的。这个批量大小意味着每个示例都必须将网络参数加载到快速内存（寄存器/缓存）中。我在测试期间给出的张量比训练批量的张量大3倍，但慢15倍。（即使在训练过程中使用反向传播）如果这是一个开销问题，那么在训练过程中也会有问题吗？我刚刚意识到，如果我使用随机图像作为输入运行相同的操作，速度会快得多。事实证明，第一次跑步速度要慢5-6倍。但是我不完全确定为什么会发生这种情况。第一次运行通常比较慢，因为有些东西是在第一次运行时初始化的。映像有多大？对于批量大小的建议是填满GPU内存，因此如果GPU有事情要做，那么理想情况下，您感兴趣的单个映像大约有这么大。如果不是，那么问题是：你想优化什么？如果是服务延迟，一次传输一个到GPU可能会有太多的开销。对于批量大小为1的CPU和GPU都将是低效的。这个批量大小意味着每个示例都必须将网络参数加载到快速内存（寄存器/缓存）中。我在测试期间给出的张量比训练批量的张量大3倍，但慢15倍。（即使在训练过程中使用反向传播）如果这是一个开销问题，那么在训练过程中也会有问题吗？我刚刚意识到，如果我使用随机图像作为输入运行相同的操作，速度会快得多。事实证明，第一次跑步速度要慢5-6倍。但是我不完全确定为什么会发生这种情况。第一次运行通常比较慢，因为有些东西在第一次运行时就初始化了