CUDA会永久损坏GPU吗？_Cuda_Nvidia_Gpgpu

CUDA会永久损坏GPU吗？

cuda

CUDA会永久损坏GPU吗？,cuda,nvidia,gpgpu,Cuda,Nvidia,Gpgpu,我还没有接触过GPGPU编程，所以我不知道CUDA（OPENCL）的具体细节，但假设GPU处于最佳（冷却良好，…）环境中-纯CUDA（OPENCL）代码是否会永久损坏GPU？GPGPU编程系统是否足够健壮，能够从代码中的所有错误中恢复我已经看到了，但是这篇文章被贴了出来，因为eaponte有一个需要解决的具体问题。我一般要求更多非常感谢您的输入。在过去几年中，在许多用户共享的开发和生产环境中使用Nvidia Tesla卡后，由于“编程错误”，我在这段时间没有看到任何“物理损坏”的卡。因此，从

我还没有接触过GPGPU编程，所以我不知道CUDA（OPENCL）的具体细节，但假设GPU处于最佳（冷却良好，…）环境中-纯CUDA（OPENCL）代码是否会永久损坏GPU？GPGPU编程系统是否足够健壮，能够从代码中的所有错误中恢复

我已经看到了，但是这篇文章被贴了出来，因为eaponte有一个需要解决的具体问题。我一般要求更多

非常感谢您的输入。

在过去几年中，在许多用户共享的开发和生产环境中使用Nvidia Tesla卡后，由于“编程错误”，我在这段时间没有看到任何“物理损坏”的卡。因此，从经验上回答第一个问题：我想如果（也是GTX）能够在最大级别上运行危机而不会着火，那么它也应该能够在高负载下存活您的OpenCL/CUDA内核。是的，供应商通常会注意热量水平和减少时钟等，正如您从CPU中了解到的。然而，系统制造商需要认证，以确保他们能够处理产生的热量，特别是在多GPU系统中

当然，过去也有一些代码破坏了所有类型的硬件，这当然也会发生在GPU上——但我从未读过一个特定的代码驱动案例，尽管这是一个有趣的研究问题

一般来说，GPU可以像任何一块硅一样被损坏，只要简单地使用它们。这种情况时有发生，例如，由于晶体管老化或冷却不良导致过热。在使用了几年之后，我们还以与更换CPU相同的方式更换了突然出现故障的GPU

由于最初的问题相当广泛，所以又增加了一个问题：今天的CPU/GPU/APU/。。。包含如此多的晶体管，生产过程如此复杂，以至于通常情况下，并非芯片的所有组件都能实际使用（参见：PS3/Cell Processor with 7/8活动通道；enterprise vs.gaming products，et al.）。事实上，去年我们遇到过这样的情况：驱动程序更新将一些以前“工作”的GPU转换成GPU，现在产生了许多双ECC错误。这一问题通过另一个驱动程序更新再次得到修复，并且只影响特定一代早期生产周期的卡。我们推测的一个想法是，坏掉的驱动程序没有正确地掩盖RAM的“不可用”部分，这种行为对最终客户来说是透明的

GPGPU编程系统是否足够健壮，能够从所有故障中恢复代码中的错误

我当然可以回答这个问题，但答案是否定的。在开发过程中，我们经常会遇到这样的情况：内核中频繁且“残酷”的故障隔离会导致驱动程序崩溃。完全重启主机系统通常是我们在这种情况下恢复的唯一方法，以使特定GPU再次可用。

@talonmies想告诉我，为什么这个问题很愚蠢？@talonmies根据您的个人资料，您显然在GPGPU编程方面有很多经验。由于互联网上有多篇帖子询问是否可能损坏GPU（通常伴随CUDA代码和特定问题），因此似乎存在一种误解，即GPGPU编程可能会损坏GPU。一、如果你能回答我的问题，而不是把它贴上离题和愚蠢的标签，也许将来还有其他人会很感激。再加上最后一个问题：当某个特定GPU的驱动程序崩溃时，这可能不会导致cuda API调用失败，但有时只会导致内核产生完全错误的计算结果。在开发过程中，在您的程序之前运行一个像cuda memtest这样的工具，以在这种情况下节省一些调试时间：非常感谢您详细的回答-这正是我想要的。