Cuda OpenACC中的固定内存(使用PGI编译器)

Cuda OpenACC中的固定内存(使用PGI编译器),cuda,gpu,openacc,pgi,pgi-accelerator,Cuda,Gpu,Openacc,Pgi,Pgi Accelerator,我有一个简单的CUDA代码,我把它翻译成OpenACC。我的所有内核都按照预期进行了并行化,它们的性能与我的CUDA内核相似。但是,设备到主机的内存传输会降低我的性能。在我的CUDA代码中,我使用了固定内存,性能要好得多。不幸的是,在OpenACC中,我不知道如何利用固定内存。我在文档中找不到任何东西。有人能给我一个简单的OpenACC例子,利用固定内存吗 PS:我正在使用PGI 16.10-0 64位编译器使用“tesla”目标的“pinted”子选项,“-ta=tesla:pinted”。请

我有一个简单的CUDA代码,我把它翻译成OpenACC。我的所有内核都按照预期进行了并行化,它们的性能与我的CUDA内核相似。但是,设备到主机的内存传输会降低我的性能。在我的CUDA代码中,我使用了固定内存,性能要好得多。不幸的是,在OpenACC中,我不知道如何利用固定内存。我在文档中找不到任何东西。有人能给我一个简单的OpenACC例子,利用固定内存吗

PS:我正在使用PGI 16.10-0 64位编译器

使用“tesla”目标的“pinted”子选项,“-ta=tesla:pinted”。请注意,您可以通过“-help-ta”标志查看所有可用的子选项