在cuda评测中是否有任何方法可以避免这种序列化行为?

在cuda评测中是否有任何方法可以避免这种序列化行为?,cuda,nvvp,Cuda,Nvvp,根据“探查器将序列化流以获得准确的计时数据”。 现在的问题是,在cuda评测(比如nvvp)中是否有任何方法可以避免这种序列化行为? 我正在使用Fermin M2090和cuda-4.0。Visual Profiler 5.0(包括nvprof和CUPTI)和Nsight Visual Studio 2.0版及更高版本(>2年版)支持费米和开普勒设备的并发内核跟踪。Visual Profiler 5.0(包括nvprof和CUPTI)和Nsight Visual Studio 2.0版及更高版本

根据“探查器将序列化流以获得准确的计时数据”。 现在的问题是,在cuda评测(比如nvvp)中是否有任何方法可以避免这种序列化行为?
我正在使用Fermin M2090和cuda-4.0。

Visual Profiler 5.0(包括nvprof和CUPTI)和Nsight Visual Studio 2.0版及更高版本(>2年版)支持费米和开普勒设备的并发内核跟踪。

Visual Profiler 5.0(包括nvprof和CUPTI)和Nsight Visual Studio 2.0版及更高版本(>2年版)支持费米和开普勒设备的并发内核跟踪。

您能告诉我哪个版本支持这一点吗?我没有从手册中找到它。只需下载最新的工具包。我相信4.1/4.2也应该支持这个,但我不确定。你能告诉我哪个版本支持这个吗?我没有从手册中找到它。只需下载最新的工具包。我相信英伟达4.1/4.2也应该支持这个,但我不确定。你可以随时查看英伟达网站的最新版本的CUDA和它的文档,以及它提供的新特性。你可以随时查看NVIDIA网站的最新版本的CUDA和它的文档,以及它提供的新特性。