GTX 1070中的FP64 CUDA内核数

GTX 1070中的FP64 CUDA内核数,cuda,gpu,hardware,Cuda,Gpu,Hardware,我已经找到了关于特斯拉P100每个SM包含多少CUDA内核的信息。它的64*FP32和32*FP64。我找不到GTX 1070的任何号码 还有后续问题。由于特斯拉的内核比率为1:2,这是否意味着双精度性能最多为单精度内核性能的一半 我已经找到了关于特斯拉P100每个SM包含多少CUDA内核的信息。它的64*FP32和32*FP64。我找不到GTX 1070的任何号码 GTX 1070是一个cc6.1 GPU。我们可以参考《编程指南》中的内容来了解相对指令吞吐量:

我已经找到了关于特斯拉P100每个SM包含多少CUDA内核的信息。它的64*FP32和32*FP64。我找不到GTX 1070的任何号码

还有后续问题。由于特斯拉的内核比率为1:2,这是否意味着双精度性能最多为单精度内核性能的一半

我已经找到了关于特斯拉P100每个SM包含多少CUDA内核的信息。它的64*FP32和32*FP64。我找不到GTX 1070的任何号码

GTX 1070是一个cc6.1 GPU。我们可以参考《编程指南》中的内容来了解相对指令吞吐量:

                                                    6.1

32-bit floating-point add, multiply, multiply-add   128
64-bit floating-point add, multiply, multiply-add   4
这些数字是每个时钟和每个SM的。这意味着每个SM有128个FP32浮点单元和4个FP64浮点单元。然后,您只需将这些数字乘以您的cc6.1 GPU中的SMs数量,您可以使用deviceQueryfor获得示例,以获得GPU中的FP32和FP64内核总数

还有后续问题。由于特斯拉的内核比率为1:2,这是否意味着双精度性能最多为单精度内核性能的一半

是的,这就是适当测量的计算界代码的含义,即在每种情况下限制器都是该特定度量的代码。请注意,该1:2比率不适用于所有特斯拉处理器,但适用于费米特斯拉处理器,如M2070、M2090等,也适用于特斯拉P100。也许更好的表述方式是,对于这种类型的GPU,1:2的比率反映了FP64:FP32比较的峰值理论性能比率