Cuda 在NVIDIA GPU评测中,什么是子分区、扇区和单元? 什么是子分区、扇区和DRAM单元,与英伟达GPU内存事务计数器性能有关?

Cuda 在NVIDIA GPU评测中,什么是子分区、扇区和单元? 什么是子分区、扇区和DRAM单元,与英伟达GPU内存事务计数器性能有关?,cuda,profiling,gpu,nvidia,Cuda,Profiling,Gpu,Nvidia,我正在查找有关如何解释以下性能计数器的信息: fb_subp0_read_扇区:发送到子分区的读取请求数 所有DRAM单元fb_subp1_read_扇区中的0个:读取数 发送到所有DRAM单元的子分区1的请求 fb_subp0_write_扇区:发送到的写入请求数 所有DRAM单元fb_subp1_write_扇区的子分区0:编号 发送到所有DRAM单元的子分区1的读取请求数 fb0_subp0_读取_扇区:发送到的读取请求数 DRAM单元0的子分区0 fb0_subp1_read_扇区数:个

我正在查找有关如何解释以下性能计数器的信息:

fb_subp0_read_扇区:发送到子分区的读取请求数 所有DRAM单元fb_subp1_read_扇区中的0个:读取数 发送到所有DRAM单元的子分区1的请求 fb_subp0_write_扇区:发送到的写入请求数 所有DRAM单元fb_subp1_write_扇区的子分区0:编号 发送到所有DRAM单元的子分区1的读取请求数 fb0_subp0_读取_扇区:发送到的读取请求数 DRAM单元0的子分区0 fb0_subp1_read_扇区数:个 发送到DRAM单元0的子分区1的读取请求 fb0_subp0_write_扇区:发送到的写入请求数 DRAM单元0的子分区0 fb0\u子分区1\u写入\u扇区数:个 向DRAM单元0的子分区1发送写入请求 fb1_subp0_读取扇区:发送到的读取请求数 DRAM单元1 fb1_subp1_read_扇区的子分区0: 发送到DRAM单元1的子分区1的读取请求 fb1_subp0_write_扇区:发送到的写入请求数 DRAM单元1的子分区0 fb1\u子分区1\u写入\u扇区:编号 发送到DRAM单元1的子分区1的写入请求数


我查看了英伟达Visual Prror 5的文档,但没有发现任何附加信息。

< P>对于大多数GPU,您将看到以下四个计数器: fb_subp0_read_扇区:发送到所有DRAM单元的子分区0的读取请求数 fb_subp1_read_扇区:发送到所有DRAM单元的子分区1的读取请求数 fb_subp0_write_扇区:发送到所有DRAM单元的子分区0的写入请求数 fb_subp1_write_扇区:发送到所有DRAM单元的子分区1的读取请求数

DRAM分为多个单元(分区),每个单元最多分为2个子分区。当您分析fb_subp0_read_扇区或fb_subp0_write_扇区计数器时,您将从所有单位中获得子算术0的聚合值。同样,当您分析fb_subp1_read_扇区或fb_subp1_write_扇区时,您将从所有DRAM单元获得子分区1的聚合值。 扇区是访问DRAM内存的单元,它是32字节


其他计数器仅对费米系列中的某些GPU有效(GeForce GT 440/430/420和GeForce GT 520/530、GeForce GT 610)。它们是由于某些硬件限制而引入的。

我也没有找到关于您提到的性能计数器的任何具体信息。我认为他们提到的问题是和论文中讨论的分区露营问题:在GPU内核中限制分区露营的效果,但我相信你已经知道了。