GTX 1070中的FP64 CUDA内核数_Cuda_Gpu_Hardware

GTX 1070中的FP64 CUDA内核数

cuda

GTX 1070中的FP64 CUDA内核数,cuda,gpu,hardware,Cuda,Gpu,Hardware,我已经找到了关于特斯拉P100每个SM包含多少CUDA内核的信息。它的64*FP32和32*FP64。我找不到GTX 1070的任何号码还有后续问题。由于特斯拉的内核比率为1:2，这是否意味着双精度性能最多为单精度内核性能的一半我已经找到了关于特斯拉P100每个SM包含多少CUDA内核的信息。它的64*FP32和32*FP64。我找不到GTX 1070的任何号码 GTX 1070是一个cc6.1 GPU。我们可以参考《编程指南》中的内容来了解相对指令吞吐量：

我已经找到了关于特斯拉P100每个SM包含多少CUDA内核的信息。它的64*FP32和32*FP64。我找不到GTX 1070的任何号码

还有后续问题。由于特斯拉的内核比率为1:2，这是否意味着双精度性能最多为单精度内核性能的一半

我已经找到了关于特斯拉P100每个SM包含多少CUDA内核的信息。它的64*FP32和32*FP64。我找不到GTX 1070的任何号码

GTX 1070是一个cc6.1 GPU。我们可以参考《编程指南》中的内容来了解相对指令吞吐量：

                                                    6.1

32-bit floating-point add, multiply, multiply-add   128
64-bit floating-point add, multiply, multiply-add   4

这些数字是每个时钟和每个SM的。这意味着每个SM有128个FP32浮点单元和4个FP64浮点单元。然后，您只需将这些数字乘以您的cc6.1 GPU中的SMs数量，您可以使用deviceQueryfor获得示例，以获得GPU中的FP32和FP64内核总数

还有后续问题。由于特斯拉的内核比率为1:2，这是否意味着双精度性能最多为单精度内核性能的一半

是的，这就是适当测量的计算界代码的含义，即在每种情况下限制器都是该特定度量的代码。请注意，该1:2比率不适用于所有特斯拉处理器，但适用于费米特斯拉处理器，如M2070、M2090等，也适用于特斯拉P100。也许更好的表述方式是，对于这种类型的GPU，1:2的比率反映了FP64:FP32比较的峰值理论性能比率