Cuda 使用并发执行读取事件计数器_Cuda_Profiling_Nvidia

Cuda 使用并发执行读取事件计数器

cuda

Cuda 使用并发执行读取事件计数器,cuda,profiling,nvidia,Cuda,Profiling,Nvidia,我试图在同时执行两个内核时使用nvprof读取性能计数器 nvprof --concurrent-kernels on --events fb_subp0_write_sectors ./myprogram 然而，通过这样做，内核执行似乎是序列化的。我想从中得到的正是它们在并发运行时的性能当内核同时运行时，是否可以读取性能计数器？我不一定需要每个内核的性能，聚合数据是非常好的我运行的是带有compute 3.5的开普勒gpu。否。nvprof v7.5及更早版本不支持性能计数器的收集，这对

我试图在同时执行两个内核时使用nvprof读取性能计数器

nvprof --concurrent-kernels on --events fb_subp0_write_sectors ./myprogram

然而，通过这样做，内核执行似乎是序列化的。我想从中得到的正是它们在并发运行时的性能

当内核同时运行时，是否可以读取性能计数器？我不一定需要每个内核的性能，聚合数据是非常好的

我运行的是带有compute 3.5的开普勒gpu。

否。nvprof v7.5及更早版本不支持性能计数器的收集，这对于调查并发内核的性能非常有用。我建议您通过英伟达开发者程序提交一个特性请求。这在团队任务列表中。客户反馈有助于将功能提升到列表中。

这就是我的猜测。cupti怎么样？cupti有一种模式，允许您从CPU读取计数器值。您可以读取事件的频率相当低，并且这些值不会绑定到并发内核周围的时间范围。