Cuda Nvidia GPU可同时访问全局内存中的单个位置_Cuda_Gpu_Nvidia_Gpgpu

Cuda Nvidia GPU可同时访问全局内存中的单个位置

cuda

Cuda Nvidia GPU可同时访问全局内存中的单个位置,cuda,gpu,nvidia,gpgpu,Cuda,Gpu,Nvidia,Gpgpu,我想知道当单个warp中的多个线程尝试访问全局内存中的同一位置时会发生什么，例如，相同的4字节字，特别是在具有计算能力7.5的图灵GPU中。我相信在共享内存中，这将导致银行冲突，除非所有线程访问同一位置，否则数据将被广播举一个人为的例子： 1考虑经线的前16个线程访问单个4字节的字，而剩下的16个线程访问下一个4字节的字。在这种情况下如何处理访问？它是否为半经线的每一根线序列化 2如果整个warp试图从全局内存访问单个4字节的字怎么办没有序列化。所有CUDA GPU开普勒和更新版本都将在该

我想知道当单个warp中的多个线程尝试访问全局内存中的同一位置时会发生什么，例如，相同的4字节字，特别是在具有计算能力7.5的图灵GPU中。我相信在共享内存中，这将导致银行冲突，除非所有线程访问同一位置，否则数据将被广播

举一个人为的例子：

1考虑经线的前16个线程访问单个4字节的字，而剩下的16个线程访问下一个4字节的字。在这种情况下如何处理访问？它是否为半经线的每一根线序列化

2如果整个warp试图从全局内存访问单个4字节的字怎么办

没有序列化。所有CUDA GPU开普勒和更新版本都将在该场景中播放。没有表现的冲击

没有区别。任何重叠读取访问模式都在单个请求中处理，每个请求的事务数都经过优化。每个请求的事务数不会高于普通合并的每个相邻位置类型读取一个线程的事务数，并且可能更低。例如，在现代GPU上，每个合并的全局读取请求可以观察到4个32字节的事务。如果warp中的所有线程都访问单个位置，则每个请求只有一个事务