cudaGetCacheConfig需要0.5秒-如何/为什么？_Cuda_Nvidia

cudaGetCacheConfig需要0.5秒-如何/为什么？

cuda

cudaGetCacheConfig需要0.5秒-如何/为什么？,cuda,nvidia,Cuda,Nvidia,我正在基于Xeon的系统上使用CUDA 8.0，该系统带有GTX Titan X（GM 200）。它工作得很好，但是-与我在家里使用的GTX 600系列卡相比，我的开销很长。具体来说，当我调用timeline时，我发现调用cudaGetCacheConfig（）会持续占用CUDA运行时API惊人的时间：530-560毫秒，或超过0.5秒。这个，而其他的电话不需要那么多。例如，cudevicegettotalem需要0.7毫秒（也是相当长的一段时间，但要少一个数量级），而cuDeviceGetAt

我正在基于Xeon的系统上使用CUDA 8.0，该系统带有GTX Titan X（GM 200）。它工作得很好，但是-与我在家里使用的GTX 600系列卡相比，我的开销很长。具体来说，当我调用timeline时，我发现调用

cudaGetCacheConfig（）

会持续占用CUDA运行时API惊人的时间：530-560毫秒，或超过0.5秒。这个，而其他的电话不需要那么多。例如，

cudevicegettotalem

需要0.7毫秒（也是相当长的一段时间，但要少一个数量级），而

cuDeviceGetAttribute

（可能仅限于主机端代码）需要0.031毫秒

为什么会这样？或者更确切地说，这怎么可能呢？我能做些什么来改善这种情况吗

注意事项：

在
```
cudaGetDeviceCount（）
```
之后调用
```
cudaGetCacheConfig（）
```
，但可能（不是100%确定）不会在任何其他运行时API调用之前调用
如果在调用
```
cudaGetCacheConfig（）
```
之前先调用
```
cudaGetDeviceProperties（）
```
，则前者需要约0.6毫秒，而后者仍然需要超过0.5秒（上次测量时为581毫秒）

TL；DR:CUDA惰性初始化（如@RobertCrovella所示）。

cudaGetCacheConfig（）

cudaDeviceSynchronize（）

cudaGetCacheConfig（）

cuda