Performance CUDA区块大小1024x1与32x32是否有任何性能差异?

Performance CUDA区块大小1024x1与32x32是否有任何性能差异?,performance,cuda,memory-bandwidth,Performance,Cuda,Memory Bandwidth,从线程调度和内存带宽的角度来看,这两种块大小(1024x1和32x32)的性能如何?这两种块大小的性能是否存在任何预期差异?请注意,这两个模块都使用1024个线程 线程块维度,特别是当我们讨论每个块的线程数相同时,其本身不会影响性能 线程仍在运行。threadblock尺寸的唯一直接影响是更改传递给每个线程的内置变量,例如threadIdx.x,blockIdx.x,等等,这不是性能问题。与索引相关联的ALU操作的数量可能会影响性能,但通常只占执行指令总数的一小部分。双向编写代码并区分程序集。这

从线程调度和内存带宽的角度来看,这两种块大小(1024x1和32x32)的性能如何?这两种块大小的性能是否存在任何预期差异?请注意,这两个模块都使用1024个线程

线程块维度,特别是当我们讨论每个块的线程数相同时,其本身不会影响性能


线程仍在运行。threadblock尺寸的唯一直接影响是更改传递给每个线程的内置变量,例如
threadIdx.x
blockIdx.x
,等等,这不是性能问题。

与索引相关联的ALU操作的数量可能会影响性能,但通常只占执行指令总数的一小部分。双向编写代码并区分程序集。这很有意义。谢谢你的洞察力!