简单的计算密集型CUDA程序

简单的计算密集型CUDA程序,cuda,Cuda,我正在准备一个新的机器与Nvidia图形卡验收测试,我想一个简单的CUDA程序,将充分行使GPU一整天。其目的是产生大量热量,并确保新机器在负载下稳定。我希望代码非常容易编译和运行(没有依赖项,没有大的输入数据集),也非常容易验证(少量的输出)。另外,我希望它是命令行的,没有GUI(测试必须是自动化的) 我最初的想法是反复运行大向量的向量点积。然而,这主要是内存密集型的。因此,如果GPU一直在等待内存访问,那么它们可能不会产生尽可能多的热量 我在CentOS Linux机器上运行 有人有什么建议

我正在准备一个新的机器与Nvidia图形卡验收测试,我想一个简单的CUDA程序,将充分行使GPU一整天。其目的是产生大量热量,并确保新机器在负载下稳定。我希望代码非常容易编译和运行(没有依赖项,没有大的输入数据集),也非常容易验证(少量的输出)。另外,我希望它是命令行的,没有GUI(测试必须是自动化的)

我最初的想法是反复运行大向量的向量点积。然而,这主要是内存密集型的。因此,如果GPU一直在等待内存访问,那么它们可能不会产生尽可能多的热量

我在CentOS Linux机器上运行


有人有什么建议吗?

您没有提到您使用的是哪个操作系统

理想情况下,您需要强调浮点单元、逻辑/整数单元、GPU内存、GPU电压调节器(VRM)和主PSU。我不认为有任何一家公用事业公司能做到这一点

内存:

整数(?):

PSU和VRM(在过去,此程序可能导致GPU超出规格,损坏卡。我认为不再是这种情况):


快速搜索我找到了什么?我看不懂那个链接。一个多GPU的CUDA压力测试,目前是谷歌第二次点击“CUDA GPU密集测试”。我没有以任何方式测试过它。引用页面“我的程序为机器上的每个GPU分叉一个进程,一个进程用于跟踪GPU温度(如果可用)[…]还有一个进程用于报告进度。GPU进程每个进程分配90%的空闲GPU内存,初始化2个随机1024*1024矩阵,并对它们持续执行有效的CUBLAS矩阵乘法例程,并在分配的内存中存储结果。“是的,理想情况下,我会测试所有这些。但我时间有限,我只能假设GPU可以工作。我主要担心的是,机器会产生太多的热量,在负载下可能会变得不稳定。我也不想尝试破坏GPU,只是一个简单但现实的测试。然后我会运行FurMark。如果一台机器不能运行FurMark,我就不会信任它进行GPU计算。它将在最大功率负载下对机器施加应力。它适用于Linux。看起来FurMark仅适用于Windows。起初我没有提到,但我需要一个Linux应用程序。此外,我还需要一个命令行应用程序(没有GUI)。谢谢