CUDA nvprof浮点运算数
我很好奇为什么探查器报告的失败数不等于ADD、MUL和FMA的总和CUDA nvprof浮点运算数,cuda,profiling,Cuda,Profiling,我很好奇为什么探查器报告的失败数不等于ADD、MUL和FMA的总和 Invocations Metric Name Metric Description Min Max Avg Device "GeForce GTX 780 Ti (0)" Kernel: mul_mm(double const *, double*, int, int, int) 30
Invocations Metric Name Metric Description Min Max Avg
Device "GeForce GTX 780 Ti (0)"
Kernel: mul_mm(double const *, double*, int, int, int)
30 flops_dp FLOPS(Double) 159500000 159500000 159500000
30 flops_dp_add FLOPS(Double Add) 0 0 0
30 flops_dp_mul FLOPS(Double Mul) 17000000 17000000 17000000
30 flops_dp_fma FLOPS(Double FMA) 71250000 71250000 71250000
我得到了
159500000-17000000-71250000=71250000
。这是偶然发生的还是FMA被计数了两次?触发器度量计算未执行指令的操作数。FMA和DFMA计为2次操作。分析器对触发器的定义不一致,因为它将一个计数器的FMA计数为2,另一个计数器的FMA计数为1
峰值触发器计算为GpuClockFrequency*CudaCoresPerSm*SmCount*2 ops/FMA。触发器度量计算未执行指令的操作数。FMA和DFMA计为2次操作。分析器对触发器的定义不一致,因为它将一个计数器的FMA计数为2,另一个计数器的FMA计数为1
峰值触发器计算为GpuClockFrequency*CudaCoresPerSm*SmCount*2 ops/FMA。触发器度量计算未执行指令的操作数。FMA和DFMA计为2次操作。分析器对触发器的定义不一致,因为它将一个计数器的FMA计数为2,另一个计数器的FMA计数为1
峰值触发器计算为GpuClockFrequency*CudaCoresPerSm*SmCount*2 ops/FMA。触发器度量计算未执行指令的操作数。FMA和DFMA计为2次操作。分析器对触发器的定义不一致,因为它将一个计数器的FMA计数为2,另一个计数器的FMA计数为1
峰值触发器的计算方法为GpuClockFrequency*CudaCoresPerSm*SmCount*2 ops/FMA。谢谢你,格雷格。当您说它不一致时,您的意思是探查器报告不一致的结果吗?我说的
flops\u dp=flops\u dp\u add+flops\u dp\u mul+2*flops\u dp\u fma
,对吗?另外,CUDA GPU的浮点峰值性能是否在操作或指令中引用?谢谢Greg。当您说它不一致时,您的意思是探查器报告不一致的结果吗?我说的flops\u dp=flops\u dp\u add+flops\u dp\u mul+2*flops\u dp\u fma
,对吗?另外,CUDA GPU的浮点峰值性能是否在操作或指令中引用?谢谢Greg。当您说它不一致时,您的意思是探查器报告不一致的结果吗?我说的flops\u dp=flops\u dp\u add+flops\u dp\u mul+2*flops\u dp\u fma
,对吗?另外,CUDA GPU的浮点峰值性能是否在操作或指令中引用?谢谢Greg。当您说它不一致时,您的意思是探查器报告不一致的结果吗?我说的flops\u dp=flops\u dp\u add+flops\u dp\u mul+2*flops\u dp\u fma
,对吗?此外,CUDA GPU的浮点峰值性能是否在操作或指令方面引用?