Tensorflow 跨多GPU扩展性能

Tensorflow 跨多GPU扩展性能,tensorflow,Tensorflow,我在tensorflow教程中运行了CIFAR 10模型,以便跨多个GPU进行培训 资料来源: GPU: 英伟达8*M40 配置: Tensorflow 0.8.0 ,CUDA 7.5,cuDNN 4 培训绩效的结果不如预期。图形的模式看起来像阿姆达尔定律 这正常吗?如果是,您认为主要原因是什么?尽量提高GPU利用率(>80%)。很可能磁盘上的数据传输速度不够快,因此GPU大部分时间处于空闲状态。尽量提高GPU的利用率(>80%)。很可能磁盘上的数据传输速度不够快,因此GPU大部分时间处于空

我在tensorflow教程中运行了CIFAR 10模型,以便跨多个GPU进行培训

资料来源:

GPU: 英伟达8*M40

配置: Tensorflow 0.8.0 ,CUDA 7.5,cuDNN 4

培训绩效的结果不如预期。图形的模式看起来像阿姆达尔定律


这正常吗?如果是,您认为主要原因是什么?

尽量提高GPU利用率(>80%)。很可能磁盘上的数据传输速度不够快,因此GPU大部分时间处于空闲状态。

尽量提高GPU的利用率(>80%)。很可能磁盘上的数据传输速度不够快,因此GPU大部分时间处于空闲状态。

您的GPU利用率如何?如果没有瓶颈,那么“每秒示例数”应该线性扩展。Tensorflow培训:2016-04-22 12:45:19.902857:step 360,损耗=4.08(3166.4示例数/秒;0.040秒/批)CPU利用率:前12:47:45上升6天,20:22,2个用户,平均负载:31.18,17.92,7.67个任务:总计346个,1个运行,345个睡眠,0个停止,0个僵尸%CPU:55.3个us,23.3个sy,0.0个ni,21.1个id,0.0个wa,0.0个hi,0.2个si,0.0个st KiB内存:总计65679412个,46795768个空闲,7339948个已使用,11543696个buff/cache KiB交换:总计,0免费,0已使用。55707412有效内存利用率:特斯拉M40开| 0000:08:00.0关|关| P074W/250W | 11769MiB/12287MiB | 15%P067W/250W | 11769MiB/12287MiB | 21%P067W/250W 12469MIB/12287MiB | 22%P068W/250W 12469MIB/12287MiB 12425%P066W/250W 11769MiB/12287MiB | 20%P081W/250W 11769MiB/12287MiB | 13%P067W/250W 11769MiB/12287MiB | 19%P070W/250W 11769MiB/12287MiB | 14%用于8GPU运行,单个GPU利用率为15~20%,CPU利用率为56%用于4GPU运行,单个GPU利用率为27~30%,运行2个GPU时CPU利用率为48%,单个GPU利用率为35~40%,运行8个GPU时CPU利用率为35%,GPU利用率为47%,CPU利用率为23%,您的GPU利用率是什么样的?我怎么不正常,“每秒示例数”Tensorflow培训:2016-04-22 12:45:19.902857:step 360,loss=4.08(3166.4个示例/秒;0.040秒/批)CPU利用率:top-12:47:45上升6天,20:22,2个用户,平均负载:31.18,17.92,7.67个任务:总计346个,1个正在运行,345个睡眠,0个停止,0个僵尸%CPU:55.3个,23.3 sy、0.0 ni、21.1 id、0.0 wa、0.0 hi、0.2 si、0.0 st KiB内存:总计65679412个,可用46795768个,使用7339948个,11543696个缓冲区/缓存KiB交换:总计0个,可用0个,使用0个。55707412有效内存利用率:特斯拉M40开| 0000:08:00.0关|关| P074W/250W | 11769MiB/12287MiB | 15%P067W/250W | 11769MiB/12287MiB | 21%P067W/250W 12469MIB/12287MiB | 22%P068W/250W 12469MIB/12287MiB 12425%P066W/250W 11769MiB/12287MiB | 20%P081W/250W 11769MiB/12287MiB | 13%P067W/250W 11769MiB/12287MiB | 19%P070W/250W 11769MiB/12287MiB | 14%用于8GPU运行,单个GPU利用率为15~20%,CPU利用率为56%用于4GPU运行,单个GPU利用率为27~30%,运行2个GPU时CPU利用率为48%,单个GPU利用率为35~40%,运行8个GPU时CPU利用率为35%,GPU利用率为47%,CPU利用率为23%