Cuda 使用SM核的gpu卡块处理模式_Cuda_Nvidia_Multiprocessor

Cuda 使用SM核的gpu卡块处理模式

cuda

Cuda 使用SM核的gpu卡块处理模式,cuda,nvidia,multiprocessor,Cuda,Nvidia,Multiprocessor,我有一个关于compute capability 1.3和2.0 gpu卡的调度过程的问题。在这两种情况下，流式多处理器每次调度的最大块数都是8，至少我从占用率计算器中注意到了这一点在1.3卡上，每个SM有8个核；在2.0卡上，每个SM有32个核。块进程的核心是如何分布的对于1.3，每个核心流程是否都有1个块？如果是这样的话，如果每个SM少于8个块，那么分配多个核来处理一个块对于2.0，如果在SM中调度了8个块，那么是否分配了4个核来处理一个块？如果SM中的块数较少，则为块计算安排更多

我有一个关于compute capability 1.3和2.0 gpu卡的调度过程的问题。在这两种情况下，流式多处理器每次调度的最大块数都是8，至少我从占用率计算器中注意到了这一点

在1.3卡上，每个SM有8个核；在2.0卡上，每个SM有32个核。块进程的核心是如何分布的

对于1.3，每个核心流程是否都有1个块？如果是这样的话，如果每个SM少于8个块，那么分配多个核来处理一个块

对于2.0，如果在SM中调度了8个块，那么是否分配了4个核来处理一个块？如果SM中的块数较少，则为块计算安排更多的芯数

谢谢。

单个SM中的所有内核都是同步工作的（至少达到cc 2.0）。当与单个lockstep扭曲相关联的线程由于某种原因暂停时，计划程序将引入另一个扭曲（如果它已准备好运行）。新的经纱可能来自同一个或不同的螺纹块，即来自当前可能位于该SM上的多达8个螺纹块

您可能对阅读编程指南感兴趣。

单个SM中的所有内核都在lockstep中工作（至少达到cc 2.0）。当与单个lockstep扭曲相关联的线程由于某种原因暂停时，计划程序将引入另一个扭曲（如果它已准备好运行）。新的经纱可能来自同一个或不同的螺纹块，即来自当前可能位于该SM上的多达8个螺纹块

您可能对阅读编程指南感兴趣