Parallel processing TensorFlow tf.nn.conv2d并行化
当批量大小等于1时,是否有办法使用GPU并行化TensorFlow中的tf.nn.conv2d操作Parallel processing TensorFlow tf.nn.conv2d并行化,parallel-processing,tensorflow,Parallel Processing,Tensorflow,当批量大小等于1时,是否有办法使用GPU并行化TensorFlow中的tf.nn.conv2d操作 我只想给我的CNN一张图像,我想在GPU上并行计算。据我所知,对于批量大小为1的情况,TensorFlow无法高效并行,因为CPU上的处理速度更快。映像有多大?对于批量大小的建议是填满GPU内存,因此如果GPU有事情要做,那么理想情况下,您感兴趣的单个映像大约有这么大。如果不是,那么问题是:你想优化什么?如果是服务延迟,一次传输一个到GPU可能会有太多的开销。对于批量大小为1的CPU和GPU都将是
我只想给我的CNN一张图像,我想在GPU上并行计算。据我所知,对于批量大小为1的情况,TensorFlow无法高效并行,因为CPU上的处理速度更快。映像有多大?对于批量大小的建议是填满GPU内存,因此如果GPU有事情要做,那么理想情况下,您感兴趣的单个映像大约有这么大。如果不是,那么问题是:你想优化什么?如果是服务延迟,一次传输一个到GPU可能会有太多的开销。对于批量大小为1的CPU和GPU都将是低效的。这个批量大小意味着每个示例都必须将网络参数加载到快速内存(寄存器/缓存)中。我在测试期间给出的张量比训练批量的张量大3倍,但慢15倍。(即使在训练过程中使用反向传播)如果这是一个开销问题,那么在训练过程中也会有问题吗?我刚刚意识到,如果我使用随机图像作为输入运行相同的操作,速度会快得多。事实证明,第一次跑步速度要慢5-6倍。但是我不完全确定为什么会发生这种情况。第一次运行通常比较慢,因为有些东西是在第一次运行时初始化的。映像有多大?对于批量大小的建议是填满GPU内存,因此如果GPU有事情要做,那么理想情况下,您感兴趣的单个映像大约有这么大。如果不是,那么问题是:你想优化什么?如果是服务延迟,一次传输一个到GPU可能会有太多的开销。对于批量大小为1的CPU和GPU都将是低效的。这个批量大小意味着每个示例都必须将网络参数加载到快速内存(寄存器/缓存)中。我在测试期间给出的张量比训练批量的张量大3倍,但慢15倍。(即使在训练过程中使用反向传播)如果这是一个开销问题,那么在训练过程中也会有问题吗?我刚刚意识到,如果我使用随机图像作为输入运行相同的操作,速度会快得多。事实证明,第一次跑步速度要慢5-6倍。但是我不完全确定为什么会发生这种情况。第一次运行通常比较慢,因为有些东西在第一次运行时就初始化了