C++ CUDA中的合并读/写

C++ CUDA中的合并读/写,c++,cuda,profiler,nvcc,C++,Cuda,Profiler,Nvcc,有没有一种方法可以检查内核从全局内存到全局内存的读写情况?我一直在尝试各种方法来确保我的内核高效地读写内存,以获得更好的性能 谢谢使用诸如nvprof之类的探查器 gld_效率和gst_效率指标将直接测量合并的全球负载和存储的百分比。例如,在Linux上: nvprof --metrics gld_efficiency,gst_efficiency ./my_app 使用探查器,如nvprof gld_效率和gst_效率指标将直接测量合并的全球负载和存储的百分比。例如,在Linux上: nvp

有没有一种方法可以检查内核从全局内存到全局内存的读写情况?我一直在尝试各种方法来确保我的内核高效地读写内存,以获得更好的性能


谢谢

使用诸如nvprof之类的探查器

gld_效率和gst_效率指标将直接测量合并的全球负载和存储的百分比。例如,在Linux上:

nvprof --metrics gld_efficiency,gst_efficiency ./my_app

使用探查器,如nvprof

gld_效率和gst_效率指标将直接测量合并的全球负载和存储的百分比。例如,在Linux上:

nvprof --metrics gld_efficiency,gst_efficiency ./my_app