CUDA nvprof浮点运算数

CUDA nvprof浮点运算数,cuda,profiling,Cuda,Profiling,我很好奇为什么探查器报告的失败数不等于ADD、MUL和FMA的总和 Invocations Metric Name Metric Description Min Max Avg Device "GeForce GTX 780 Ti (0)" Kernel: mul_mm(double const *, double*, int, int, int) 30

我很好奇为什么探查器报告的失败数不等于ADD、MUL和FMA的总和

Invocations                     Metric Name              Metric Description         Min         Max         Avg
Device "GeForce GTX 780 Ti (0)"
    Kernel: mul_mm(double const *, double*, int, int, int)
         30                        flops_dp                   FLOPS(Double)   159500000   159500000   159500000
         30                    flops_dp_add               FLOPS(Double Add)           0           0           0
         30                    flops_dp_mul               FLOPS(Double Mul)    17000000    17000000    17000000
         30                    flops_dp_fma               FLOPS(Double FMA)    71250000    71250000    71250000

我得到了
159500000-17000000-71250000=71250000
。这是偶然发生的还是FMA被计数了两次?

触发器度量计算未执行指令的操作数。FMA和DFMA计为2次操作。分析器对触发器的定义不一致,因为它将一个计数器的FMA计数为2,另一个计数器的FMA计数为1


峰值触发器计算为GpuClockFrequency*CudaCoresPerSm*SmCount*2 ops/FMA。

触发器度量计算未执行指令的操作数。FMA和DFMA计为2次操作。分析器对触发器的定义不一致,因为它将一个计数器的FMA计数为2,另一个计数器的FMA计数为1


峰值触发器计算为GpuClockFrequency*CudaCoresPerSm*SmCount*2 ops/FMA。

触发器度量计算未执行指令的操作数。FMA和DFMA计为2次操作。分析器对触发器的定义不一致,因为它将一个计数器的FMA计数为2,另一个计数器的FMA计数为1


峰值触发器计算为GpuClockFrequency*CudaCoresPerSm*SmCount*2 ops/FMA。

触发器度量计算未执行指令的操作数。FMA和DFMA计为2次操作。分析器对触发器的定义不一致,因为它将一个计数器的FMA计数为2,另一个计数器的FMA计数为1


峰值触发器的计算方法为GpuClockFrequency*CudaCoresPerSm*SmCount*2 ops/FMA。

谢谢你,格雷格。当您说它不一致时,您的意思是探查器报告不一致的结果吗?我说的
flops\u dp=flops\u dp\u add+flops\u dp\u mul+2*flops\u dp\u fma
,对吗?另外,CUDA GPU的浮点峰值性能是否在操作或指令中引用?谢谢Greg。当您说它不一致时,您的意思是探查器报告不一致的结果吗?我说的
flops\u dp=flops\u dp\u add+flops\u dp\u mul+2*flops\u dp\u fma
,对吗?另外,CUDA GPU的浮点峰值性能是否在操作或指令中引用?谢谢Greg。当您说它不一致时,您的意思是探查器报告不一致的结果吗?我说的
flops\u dp=flops\u dp\u add+flops\u dp\u mul+2*flops\u dp\u fma
,对吗?另外,CUDA GPU的浮点峰值性能是否在操作或指令中引用?谢谢Greg。当您说它不一致时,您的意思是探查器报告不一致的结果吗?我说的
flops\u dp=flops\u dp\u add+flops\u dp\u mul+2*flops\u dp\u fma
,对吗?此外,CUDA GPU的浮点峰值性能是否在操作或指令方面引用?