Tensorflow以35%的GPU利用率运行,探查器显示奇数cpu活动
我在tensorflow的GPU上运行一个典型的5层卷积网络。当我在高速1080TI GPU上运行时,我的GPU利用率约为35%。在速度较慢的M40上,我可以获得80%的利用率,在970m移动GPU上可以获得97%的利用率 我已经实现了tf.stagingrea GPU队列,并用一条警告消息确认了stagingrea在每个训练步骤之前不是空的,它是异步馈送的 我已经运行了下面所示的tensorflow分析器。值得注意的是,GPU上的主要操作似乎在15毫秒内完成,但是在15毫秒和40毫秒之间有一个间隙,分析器没有注册任何内容。在40ms时,会发生三个与优化器相关的小型CPU操作(全局步骤更新) 这种行为在每一步都是一致的 你知道这里为什么耽搁这么久吗Tensorflow以35%的GPU利用率运行,探查器显示奇数cpu活动,tensorflow,profiling,tensorflow-gpu,Tensorflow,Profiling,Tensorflow Gpu,我在tensorflow的GPU上运行一个典型的5层卷积网络。当我在高速1080TI GPU上运行时,我的GPU利用率约为35%。在速度较慢的M40上,我可以获得80%的利用率,在970m移动GPU上可以获得97%的利用率 我已经实现了tf.stagingrea GPU队列,并用一条警告消息确认了stagingrea在每个训练步骤之前不是空的,它是异步馈送的 我已经运行了下面所示的tensorflow分析器。值得注意的是,GPU上的主要操作似乎在15毫秒内完成,但是在15毫秒和40毫秒之间有一个
有一种方法可以让您在“英特尔VTune放大器”的帮助下确定CPU在该时间间隔内发生的情况(该工具不是免费的,但有免费的全功能学术版和试用版)。您可以使用中的配方将时间线数据导入“英特尔VTune放大器”并在其中进行分析。您将需要帧域/源函数分组。展开[No frame domain-Out any frame]行,您将获得感兴趣的时间间隔内发生的热点列表。有一种方法可以帮助您确定在该时间间隔内CPU上发生了什么(该工具不是免费的,但有免费的全功能学术版和试用版). 您可以使用中的配方将时间线数据导入“英特尔VTune放大器”并在其中进行分析。您将需要帧域/源函数分组。展开[No frame domain-Outside any frame]行,您将获得您感兴趣的时间间隔内发生的热点列表