Kernel 如何知道在NVIDIA GPU上执行内核期间平均使用了多少条SMs?

Kernel 如何知道在NVIDIA GPU上执行内核期间平均使用了多少条SMs?,kernel,gpu,profiling,nvidia,nsight,Kernel,Gpu,Profiling,Nvidia,Nsight,我需要一个度量(nvprof或nsight compute)来知道内核执行期间使用的SMs的平均数量 我查看了《CUDA档案器指南》中的可用指标: (计算能力=7.x) 但我没有看到任何不是“每SM”的指标 例如,达到的入住率是“每平方米”指标 入住率达到\u 每个活动周期的平均活动扭曲与多处理器支持的最大扭曲数之比 Thx

我需要一个度量(nvprof或nsight compute)来知道内核执行期间使用的SMs的平均数量

我查看了《CUDA档案器指南》中的可用指标: (计算能力=7.x)

但我没有看到任何不是“每SM”的指标

例如,达到的入住率是“每平方米”指标

入住率达到\u
每个活动周期的平均活动扭曲与多处理器支持的最大扭曲数之比

Thx