Cuda 使用SM核的gpu卡块处理模式

Cuda 使用SM核的gpu卡块处理模式,cuda,nvidia,multiprocessor,Cuda,Nvidia,Multiprocessor,我有一个关于compute capability 1.3和2.0 gpu卡的调度过程的问题。 在这两种情况下,流式多处理器每次调度的最大块数都是8,至少我从占用率计算器中注意到了这一点 在1.3卡上,每个SM有8个核;在2.0卡上,每个SM有32个核。 块进程的核心是如何分布的 对于1.3,每个核心流程是否都有1个块?如果是这样的话,如果每个SM少于8个块,那么分配多个核来处理一个块 对于2.0,如果在SM中调度了8个块,那么是否分配了4个核来处理一个块?如果SM中的块数较少,则为块计算安排更多

我有一个关于compute capability 1.3和2.0 gpu卡的调度过程的问题。 在这两种情况下,流式多处理器每次调度的最大块数都是8,至少我从占用率计算器中注意到了这一点

在1.3卡上,每个SM有8个核;在2.0卡上,每个SM有32个核。 块进程的核心是如何分布的

对于1.3,每个核心流程是否都有1个块?如果是这样的话,如果每个SM少于8个块,那么分配多个核来处理一个块

对于2.0,如果在SM中调度了8个块,那么是否分配了4个核来处理一个块?如果SM中的块数较少,则为块计算安排更多的芯数


谢谢。

单个SM中的所有内核都是同步工作的(至少达到cc 2.0)。当与单个lockstep扭曲相关联的线程由于某种原因暂停时,计划程序将引入另一个扭曲(如果它已准备好运行)。新的经纱可能来自同一个或不同的螺纹块,即来自当前可能位于该SM上的多达8个螺纹块


您可能对阅读编程指南感兴趣。

单个SM中的所有内核都在lockstep中工作(至少达到cc 2.0)。当与单个lockstep扭曲相关联的线程由于某种原因暂停时,计划程序将引入另一个扭曲(如果它已准备好运行)。新的经纱可能来自同一个或不同的螺纹块,即来自当前可能位于该SM上的多达8个螺纹块

您可能对阅读编程指南感兴趣