Cuda 从CPU主机调用内核函数或从GPU使用动态并行时,延迟有什么不同?

Cuda 从CPU主机调用内核函数或从GPU使用动态并行时,延迟有什么不同?,cuda,gpgpu,nvidia,latency,Cuda,Gpgpu,Nvidia,Latency,在调用内核函数和同步(等待其完成)时,延迟有何不同,以及延迟的近似值是多少: 当通过使用动态并行性从GPU-从其他内核函数调用时:kernel\u function>();cudaDeviceSynchronize() 从CPU主机调用时:kernel_function>();cudaDeviceSynchronize() CUDA文档中未指定延迟,延迟可能会根据您正在运行的实际内核、您正在传递给内核的实际参数安排以及您正在使用的操作系统和驱动程序配置而发生显著变化 您需要运行自己的测试来发现

在调用内核函数和同步(等待其完成)时,延迟有何不同,以及延迟的近似值是多少:

  • 当通过使用动态并行性从GPU-从其他内核函数调用时:
    kernel\u function>();cudaDeviceSynchronize()
  • 从CPU主机调用时:
    kernel_function>();cudaDeviceSynchronize()

CUDA文档中未指定延迟,延迟可能会根据您正在运行的实际内核、您正在传递给内核的实际参数安排以及您正在使用的操作系统和驱动程序配置而发生显著变化

您需要运行自己的测试来发现特定情况下的延迟