Memory 提高CUDA中每线程寄存器的使用率_Memory_Cuda_Latency_Cpu Registers

Memory 提高CUDA中每线程寄存器的使用率

memory cuda

Memory 提高CUDA中每线程寄存器的使用率,memory,cuda,latency,cpu-registers,Memory,Cuda,Latency,Cpu Registers,通常建议降低每线程寄存器压力以增加扭曲占用率，从而通过扭曲级别多线程（TLP）提供更大的隐藏延迟的机会。要降低寄存器压力，可以使用更多的每个线程本地内存或每个线程块共享内存。CUDA nvcc编译器也可以强制每个线程使用更少的寄存器。这种方法适用于具有良好算术延迟的工作负载，即ALU操作与内存r/w访问请求的比率较高。但是，对于计算量很少且内存访问更频繁的延迟关键型应用程序，这种方法实际上会降低性能对于这种延迟关键型应用程序，将尽可能多的数据放入片上寄存器或共享内存中，然后在使用全局内存中的下

通常建议降低每线程寄存器压力以增加扭曲占用率，从而通过扭曲级别多线程（TLP）提供更大的隐藏延迟的机会。要降低寄存器压力，可以使用更多的每个线程本地内存或每个线程块共享内存。CUDA nvcc编译器也可以强制每个线程使用更少的寄存器。这种方法适用于具有良好算术延迟的工作负载，即ALU操作与内存r/w访问请求的比率较高。但是，对于计算量很少且内存访问更频繁的延迟关键型应用程序，这种方法实际上会降低性能

对于这种延迟关键型应用程序，将尽可能多的数据放入片上寄存器或共享内存中，然后在使用全局内存中的下一块数据替换之前尽可能多地使用这些数据更有意义。当然，通过增加寄存器压力，翘曲占用率降低，但现在我们使用快速片上寄存器来隐藏片外内存延迟。增加每个线程寄存器使用率的方法是通过展开循环或计算每个线程的更多输出数据来增加ILP（这也基本上通过对更多输入执行相同的工作来增加ILP）。这种方法基本上是由Volkov提出的（在占用率较低的情况下性能更好）

现在nvcc编译器驱动程序有一个名为maxrregcount的命令行选项，它允许更改每线程寄存器的使用情况。使用此选项一次可以强制编译器减少每线程寄存器的使用，但不能强制编译器增加每线程寄存器的使用。我有一个例子，我想增加每线程寄存器的使用率，但我无法在内核中展开循环，因为循环边界依赖于数据并且是动态的。到目前为止，我尝试了一些技巧，但对于如何提高每线程寄存器的使用率，我已经没有什么想法了。有人能提出提高单个CUDA线程的寄存器使用率的方法吗？

在某种程度上，这个问题是重复的。您已经很好地总结了这些选项。如果您不能通过展开和显式使用标量变量强制使用寄存器，那么我认为您可能会陷入困境

请注意，即使是具有动态边界的循环也可以部分手动展开。您只需检查循环展开部分内的边界。这可能有助于提高寄存器的使用率

我还认为，增加寄存器使用率和减少延迟之间并没有保证的直接关系，所以实际上您应该关注减少延迟，而不是特别关注寄存器使用率

如果您想减少总体内核延迟，那么您应该尝试一些方法

启动的线程块不能超过GPU上可并发运行的线程块（由占用率计算器确定）
尽量减少内核的函数参数数量，因为这些参数需要在内核启动期间初始化（因此，拥有许多参数会增加启动开销）