Cuda 对于GPU扭曲，哪种原子瞄准模式更好：完全相同还是完全不同？_Cuda_Opencl_Gpgpu_Atomic

Cuda 对于GPU扭曲，哪种原子瞄准模式更好：完全相同还是完全不同？

cuda opencl

Cuda 对于GPU扭曲，哪种原子瞄准模式更好：完全相同还是完全不同？,cuda,opencl,gpgpu,atomic,Cuda,Opencl,Gpgpu,Atomic,假设我们有：单经纱（32线）每个线程t有32个int值val t，0…val t，31 每个值val t，i需要原子地添加到变量desti中，该变量位于（选项1）全局设备内存（选项2）共享块内存中哪种访问模式可以更快地执行这些添加：所有线程都将val t，1添加到dest 1 所有线程都将val t、2添加到dest 2 等等每个具有索引t的线程都将val t，t写入dest t 每个带有索引t的线程将val t（t+1）mod 32写入dest（t+1）mod 32 等等换句话

假设我们有：

单经纱（32线）
每个线程t有32个int值val t，0…val t，31
每个值val t，i需要原子地添加到变量desti中，该变量位于（选项1）全局设备内存（选项2）共享块内存中

哪种访问模式可以更快地执行这些添加：

所有线程都将val t，1添加到dest 1

所有线程都将val t、2添加到dest 2

等等

每个具有索引t的线程都将val t，t写入dest t

每个带有索引t的线程将val t（t+1）mod 32写入dest（t+1）mod 32

等等

换句话说，当一个warp的所有线程在同一个周期中进行原子写入时，是更快，还是没有原子写入重合更好？我可以想出硬件来更快地执行这两个选项，我想知道实际实现了什么

想法：

GPU有可能拥有将多个原子操作从同一个扭曲集中到一个目的地的硬件，这样它们实际上只算一个，或者至少可以一起调度，因此所有线程将同时执行下一条指令，不要等到所有其他的事情都做完了，最后一次原子行动才结束

注意事项：

这个问题的重点是英伟达与CUDA的硬件，但我希望得到有关AMD和其他GPU的答案
不管线程是如何得到它们的。假设它们在寄存器中并且没有溢出，或者它们是在寄存器中完成的一些算术运算的结果。忘记任何获取它们的内存访问