CUDA内核和流式多处理器对推理速度很重要

CUDA内核和流式多处理器对推理速度很重要,cuda,gpu,nvidia,inference,Cuda,Gpu,Nvidia,Inference,据我所知,NVIDIA GPU的CUDA内核数量决定了它运行单个深度学习模型的速度 因此,如果我在0.5秒内使用NVIDIA TITAN RTX GPU在一个模型上运行推断,该GPU有72个流式多处理器和4608个内核,并且它使用的GPU的最大利用率约为10%,那么我是否可以假设使用了10%的流式多处理器(大约7个)?因此,大约有900个CUDA内核被使用?(我是根据这个答案得出的:) 因此,如果我降级到具有3000个CUDA内核的较低GPU,理论上它仍然能够以相同的0.5秒速度执行推断,对吗?

据我所知,NVIDIA GPU的CUDA内核数量决定了它运行单个深度学习模型的速度

因此,如果我在0.5秒内使用NVIDIA TITAN RTX GPU在一个模型上运行推断,该GPU有72个流式多处理器和4608个内核,并且它使用的GPU的最大利用率约为10%,那么我是否可以假设使用了10%的流式多处理器(大约7个)?因此,大约有900个CUDA内核被使用?(我是根据这个答案得出的:)


因此,如果我降级到具有3000个CUDA内核的较低GPU,理论上它仍然能够以相同的0.5秒速度执行推断,对吗?

这不是对利用率的正确解释。10%的利用率意味着,粗略地说,GPU内核有10%的时间在运行。90%的情况下,没有GPU内核在运行。它不会告诉您GPU内核正在做什么,或者它正在使用多少资源。在超级用户上给出的答案是错误的。正确的描述是。如图所示,可以演示仅使用一个“内核”(即仅使用一个线程的内核)的GPU内核的100%利用率

关于您的问题,您不应该假设如果您从具有4608个内核的GPU切换到具有3000个内核的GPU,性能不会有任何变化。首先,这些信息不足以判断性能(比如时钟速度和其他因素),其次,如果您假设它们是同一代的GPU,那么3000核的GPU可能比4608核的GPU慢一些。这是因为对于一个给定的GPU体系结构,时钟速度、内存带宽等其他因素在3000核的GPU上都可能更低

简而言之,我不会假设推理性能是相同的。这取决于除你在这里指出的以外的其他事情。我认为它可能更快,也可能更慢,这取决于实际的GPU比较


就目前可用的CUDA GPU而言,几乎任何东西的推理性能都可能比Titan RTX慢一些。根据具体的GPU,差异可能很小,可能可以忽略,也可能更大。

这不是对利用率的正确解释。10%的利用率意味着,粗略地说,GPU内核有10%的时间在运行。90%的情况下,没有GPU内核在运行。它不会告诉您GPU内核正在做什么,或者它正在使用多少资源。在超级用户上给出的答案是错误的。正确的描述是。如图所示,可以演示仅使用一个“内核”(即仅使用一个线程的内核)的GPU内核的100%利用率

关于您的问题,您不应该假设如果您从具有4608个内核的GPU切换到具有3000个内核的GPU,性能不会有任何变化。首先,这些信息不足以判断性能(比如时钟速度和其他因素),其次,如果您假设它们是同一代的GPU,那么3000核的GPU可能比4608核的GPU慢一些。这是因为对于一个给定的GPU体系结构,时钟速度、内存带宽等其他因素在3000核的GPU上都可能更低

简而言之,我不会假设推理性能是相同的。这取决于除你在这里指出的以外的其他事情。我认为它可能更快,也可能更慢,这取决于实际的GPU比较


就目前可用的CUDA GPU而言,几乎任何东西的推理性能都可能比Titan RTX慢一些。根据具体的GPU,差异可能很小,可能可以忽略,也可能更大。

非常感谢您富有洞察力的回复!我比较Titan RTX的GPU是Quadro RTX 5000。我注意到Quadro RTX 5000的核心时钟速度稍慢(1350 MHz vs.1620 MHz),内存带宽较低(448 GB/sec vs.672 GB/sec)。你认为这是影响推理能力的两个更重要的因素吗?如果是这样的话,你认为推理性能会明显变差吗?我认为会变慢/变差。我真的说不清到底多少钱。很可能差别可以忽略不计。非常感谢您富有洞察力的回复!我比较Titan RTX的GPU是Quadro RTX 5000。我注意到Quadro RTX 5000的核心时钟速度稍慢(1350 MHz vs.1620 MHz),内存带宽较低(448 GB/sec vs.672 GB/sec)。你认为这是影响推理能力的两个更重要的因素吗?如果是这样的话,你认为推理性能会明显变差吗?我认为会变慢/变差。我真的说不清到底多少钱。这种差别很可能可以忽略不计。