CUDA中Malloc函数的效率

CUDA中Malloc函数的效率,cuda,malloc,Cuda,Malloc,我正在尝试将一些CPU代码移植到CUDA中。我的CUDA卡基于费米体系结构,因此我可以在设备中使用malloc()函数来动态分配内存,不需要对原始代码进行太多更改。(malloc()函数在我的代码中被多次调用。)我的问题是这个malloc函数是否足够有效,或者如果可能,我们应该避免使用它。我在CUDA上运行代码的速度没有多大提高,我怀疑这是使用malloc()函数造成的 如果您有任何建议或意见,请告诉我。非常感谢您的帮助。当前的设备malloc实现非常缓慢(已经有关于高效CUDA动态内存分配的论

我正在尝试将一些CPU代码移植到CUDA中。我的CUDA卡基于费米体系结构,因此我可以在设备中使用malloc()函数来动态分配内存,不需要对原始代码进行太多更改。(malloc()函数在我的代码中被多次调用。)我的问题是这个malloc函数是否足够有效,或者如果可能,我们应该避免使用它。我在CUDA上运行代码的速度没有多大提高,我怀疑这是使用malloc()函数造成的


如果您有任何建议或意见,请告诉我。非常感谢您的帮助。

当前的设备malloc实现非常缓慢(已经有关于高效CUDA动态内存分配的论文发表,但这项工作尚未出现在发布工具包AFAIK中)。它分配的内存来自heap,heap存储在全局内存中,而且速度非常慢。除非您有非常令人信服的理由这样做,否则我建议您避免内核中的动态内存分配。这将对整体绩效产生负面影响。它是否真的对您的代码有很大影响是一个完全独立的问题。

当前的设备malloc实现非常缓慢(已经发表了关于高效CUDA动态内存分配的论文,但这项工作还没有出现在发布工具包AFAIK中)。它分配的内存来自heap,heap存储在全局内存中,而且速度非常慢。除非您有非常令人信服的理由这样做,否则我建议您避免内核中的动态内存分配。这将对整体绩效产生负面影响。它是否真的对您的代码有很大影响是一个完全不同的问题。

谢谢您的回答。你能给我指一下这篇论文的链接吗?这篇论文所依据的论文是可用的。谢谢你的回答。你能给我指一下这篇论文的链接吗?这篇论文所依据的论文是可用的。