Cuda 使用并发执行读取事件计数器

Cuda 使用并发执行读取事件计数器,cuda,profiling,nvidia,Cuda,Profiling,Nvidia,我试图在同时执行两个内核时使用nvprof读取性能计数器 nvprof --concurrent-kernels on --events fb_subp0_write_sectors ./myprogram 然而,通过这样做,内核执行似乎是序列化的。我想从中得到的正是它们在并发运行时的性能 当内核同时运行时,是否可以读取性能计数器?我不一定需要每个内核的性能,聚合数据是非常好的 我运行的是带有compute 3.5的开普勒gpu。否。nvprof v7.5及更早版本不支持性能计数器的收集,这对

我试图在同时执行两个内核时使用nvprof读取性能计数器

nvprof --concurrent-kernels on --events fb_subp0_write_sectors ./myprogram
然而,通过这样做,内核执行似乎是序列化的。我想从中得到的正是它们在并发运行时的性能

当内核同时运行时,是否可以读取性能计数器?我不一定需要每个内核的性能,聚合数据是非常好的


我运行的是带有compute 3.5的开普勒gpu。

否。nvprof v7.5及更早版本不支持性能计数器的收集,这对于调查并发内核的性能非常有用。我建议您通过英伟达开发者程序提交一个特性请求。这在团队任务列表中。客户反馈有助于将功能提升到列表中。

这就是我的猜测。cupti怎么样?cupti有一种模式,允许您从CPU读取计数器值。您可以读取事件的频率相当低,并且这些值不会绑定到并发内核周围的时间范围。