了解tensorflow剖面结果

了解tensorflow剖面结果,tensorflow,profiling,Tensorflow,Profiling,演示如何分析tensorflow程序。我用这个工具来分析我的程序,一个简单的LSTM。结果如下所示: /gpu:0/流:所有计算(pid 5) /job:localhost/replica:0/task:0/gpu:0 Compute(pid 3) 我的问题: a) 每行的意思是什么 b) 特别是/gpu:0/stream:all Compute(pid 5)和/job:localhost/replica:0/task:0/gpu:0 Compute(pid 3)之间有什么区别 c) 为什么

演示如何分析tensorflow程序。我用这个工具来分析我的程序,一个简单的LSTM。结果如下所示:

/gpu:0/流:所有计算(pid 5)

/job:localhost/replica:0/task:0/gpu:0 Compute(pid 3)

我的问题:

a) 每行的意思是什么

b) 特别是
/gpu:0/stream:all Compute(pid 5)
/job:localhost/replica:0/task:0/gpu:0 Compute(pid 3)
之间有什么区别


c) 为什么它们的执行时间不同,即
0.072ms
0.094ms

以下是一位工程师的更新:

“/gpu:0/stream:*”时间是CUDA内核执行时间的硬件跟踪


“/gpu:0”行是TF软件设备在CUDA流中将ops排队(通常需要几乎零时间)

因此,
/gpu:0
行中的数字包括gpu内核启动时间?