Performance GPU代码的微体系结构优化

Performance GPU代码的微体系结构优化,performance,assembly,gpu,nvidia,perf,Performance,Assembly,Gpu,Nvidia,Perf,对于x86 CPU,《英特尔软件优化手册》中有一个详细介绍的框架,称为自上而下的微体系结构分析方法,其中包含在每个级别上分析的特定perf计数器 我目前正在NVidia gpu geforce gtx 1050上运行一些代码,希望了解并衡量与其微体系结构相关的性能瓶颈 是否有一种与x86 CPU类似的通用方法来测量、分析和调整GPU代码性能?您尝试过吗?@Michael当然,我第一次尝试查找ISA手册,但结果发现它是封闭源代码。我更多地考虑了他们提供的工具。@Michael是的,PAPI CUD

对于x86 CPU,《英特尔软件优化手册》中有一个详细介绍的框架,称为自上而下的微体系结构分析方法,其中包含在每个级别上分析的特定
perf
计数器

我目前正在NVidia gpu geforce gtx 1050上运行一些代码,希望了解并衡量与其微体系结构相关的性能瓶颈


是否有一种与x86 CPU类似的通用方法来测量、分析和调整GPU代码性能?

您尝试过吗?@Michael当然,我第一次尝试查找ISA手册,但结果发现它是封闭源代码。我更多地考虑了他们提供的工具。@Michael是的,PAPI CUDA组件大致上与perf的功能相似。但是否有任何关于GPU管道和微检查结构的文档,或者这些信息也已关闭?