VS2010中使用Nvidia NSight的CUDA性能评测-时间线上的段

VS2010中使用Nvidia NSight的CUDA性能评测-时间线上的段,cuda,profiling,nvidia,nsight,Cuda,Profiling,Nvidia,Nsight,我想知道,假设我只调用了一个内核,在应用程序跟踪报告的时间轴视图中,在 进程->CUDA->计算 我在时间轴窗口中看到的每个片段是否都代表执行操作的扭曲?如果是,有没有办法让我知道到底有多少线程参与了这个操作?(我假设它不一定是启动内核时指定的数字)在Nsight Visual Studio Edition中,Process\CUDA\Context\Compute行中的每个范围都是内核启动 范围开始时间戳是flatThreadIdx=0的第一条指令执行的时间 范围结束时间戳是内核的完成 N

我想知道,假设我只调用了一个内核,在应用程序跟踪报告的时间轴视图中,在

进程->CUDA->计算


我在时间轴窗口中看到的每个片段是否都代表执行操作的扭曲?如果是,有没有办法让我知道到底有多少线程参与了这个操作?(我假设它不一定是启动内核时指定的数字)

在Nsight Visual Studio Edition中,Process\CUDA\Context\Compute行中的每个范围都是内核启动

  • 范围开始时间戳是flatThreadIdx=0的第一条指令执行的时间
  • 范围结束时间戳是内核的完成
Nsight timeline不显示内核级别以下的信息(线程块、扭曲或线程),因为这将是一个巨大的数据量。启动的网格尺寸和块尺寸可在工具提示、时间线底部的关联窗格和CUDA启动报告页面中找到

Nsight VSE Profile CUDA应用程序活动可以收集每条指令计数器,这些计数器可用于查看在应用程序中执行每条指令的线程数。要收集此数据,请将“要运行的实验”下拉列表设置为“全部”,或将其设置为“自定义”,然后选择“指令计数实验”。“源代码视图”报告页面将包含“已执行指令”和“已执行线程指令”列。或者,您可以配置指令计数实验,以收集每个指令的活动掩码直方图和谓词直方图