CUDA会永久损坏GPU吗?

CUDA会永久损坏GPU吗?,cuda,nvidia,gpgpu,Cuda,Nvidia,Gpgpu,我还没有接触过GPGPU编程,所以我不知道CUDA(OPENCL)的具体细节,但假设GPU处于最佳(冷却良好,…)环境中-纯CUDA(OPENCL)代码是否会永久损坏GPU?GPGPU编程系统是否足够健壮,能够从代码中的所有错误中恢复 我已经看到了,但是这篇文章被贴了出来,因为eaponte有一个需要解决的具体问题。我一般要求更多 非常感谢您的输入。在过去几年中,在许多用户共享的开发和生产环境中使用Nvidia Tesla卡后,由于“编程错误”,我在这段时间没有看到任何“物理损坏”的卡。因此,从

我还没有接触过GPGPU编程,所以我不知道CUDA(OPENCL)的具体细节,但假设GPU处于最佳(冷却良好,…)环境中-纯CUDA(OPENCL)代码是否会永久损坏GPU?GPGPU编程系统是否足够健壮,能够从代码中的所有错误中恢复

我已经看到了,但是这篇文章被贴了出来,因为eaponte有一个需要解决的具体问题。我一般要求更多


非常感谢您的输入。

在过去几年中,在许多用户共享的开发和生产环境中使用Nvidia Tesla卡后,由于“编程错误”,我在这段时间没有看到任何“物理损坏”的卡。因此,从经验上回答第一个问题:我想如果(也是GTX)能够在最大级别上运行危机而不会着火,那么它也应该能够在高负载下存活您的OpenCL/CUDA内核。是的,供应商通常会注意热量水平和减少时钟等,正如您从CPU中了解到的。然而,系统制造商需要认证,以确保他们能够处理产生的热量,特别是在多GPU系统中

当然,过去也有一些代码破坏了所有类型的硬件,这当然也会发生在GPU上——但我从未读过一个特定的代码驱动案例,尽管这是一个有趣的研究问题

一般来说,GPU可以像任何一块硅一样被损坏,只要简单地使用它们。这种情况时有发生,例如,由于晶体管老化或冷却不良导致过热。在使用了几年之后,我们还以与更换CPU相同的方式更换了突然出现故障的GPU

由于最初的问题相当广泛,所以又增加了一个问题:今天的CPU/GPU/APU/。。。包含如此多的晶体管,生产过程如此复杂,以至于通常情况下,并非芯片的所有组件都能实际使用(参见:PS3/Cell Processor with 7/8活动通道;enterprise vs.gaming products,et al.)。事实上,去年我们遇到过这样的情况:驱动程序更新将一些以前“工作”的GPU转换成GPU,现在产生了许多双ECC错误。这一问题通过另一个驱动程序更新再次得到修复,并且只影响特定一代早期生产周期的卡。我们推测的一个想法是,坏掉的驱动程序没有正确地掩盖RAM的“不可用”部分,这种行为对最终客户来说是透明的

GPGPU编程系统是否足够健壮,能够从所有故障中恢复 代码中的错误


我当然可以回答这个问题,但答案是否定的。在开发过程中,我们经常会遇到这样的情况:内核中频繁且“残酷”的故障隔离会导致驱动程序崩溃。完全重启主机系统通常是我们在这种情况下恢复的唯一方法,以使特定GPU再次可用。

@talonmies想告诉我,为什么这个问题很愚蠢?@talonmies根据您的个人资料,您显然在GPGPU编程方面有很多经验。由于互联网上有多篇帖子询问是否可能损坏GPU(通常伴随CUDA代码和特定问题),因此似乎存在一种误解,即GPGPU编程可能会损坏GPU。一、 如果你能回答我的问题,而不是把它贴上离题和愚蠢的标签,也许将来还有其他人会很感激。再加上最后一个问题:当某个特定GPU的驱动程序崩溃时,这可能不会导致cuda API调用失败,但有时只会导致内核产生完全错误的计算结果。在开发过程中,在您的程序之前运行一个像cuda memtest这样的工具,以在这种情况下节省一些调试时间:非常感谢您详细的回答-这正是我想要的。