CUDA内核和流式多处理器对推理速度很重要_Cuda_Gpu_Nvidia_Inference

CUDA内核和流式多处理器对推理速度很重要

cuda

CUDA内核和流式多处理器对推理速度很重要,cuda,gpu,nvidia,inference,Cuda,Gpu,Nvidia,Inference,据我所知，NVIDIA GPU的CUDA内核数量决定了它运行单个深度学习模型的速度因此，如果我在0.5秒内使用NVIDIA TITAN RTX GPU在一个模型上运行推断，该GPU有72个流式多处理器和4608个内核，并且它使用的GPU的最大利用率约为10%，那么我是否可以假设使用了10%的流式多处理器（大约7个）？因此，大约有900个CUDA内核被使用？（我是根据这个答案得出的：）因此，如果我降级到具有3000个CUDA内核的较低GPU，理论上它仍然能够以相同的0.5秒速度执行推断，对吗？

据我所知，NVIDIA GPU的CUDA内核数量决定了它运行单个深度学习模型的速度

因此，如果我在0.5秒内使用NVIDIA TITAN RTX GPU在一个模型上运行推断，该GPU有72个流式多处理器和4608个内核，并且它使用的GPU的最大利用率约为10%，那么我是否可以假设使用了10%的流式多处理器（大约7个）？因此，大约有900个CUDA内核被使用？（我是根据这个答案得出的：）

因此，如果我降级到具有3000个CUDA内核的较低GPU，理论上它仍然能够以相同的0.5秒速度执行推断，对吗？

这不是对利用率的正确解释。10%的利用率意味着，粗略地说，GPU内核有10%的时间在运行。90%的情况下，没有GPU内核在运行。它不会告诉您GPU内核正在做什么，或者它正在使用多少资源。在超级用户上给出的答案是错误的。正确的描述是。如图所示，可以演示仅使用一个“内核”（即仅使用一个线程的内核）的GPU内核的100%利用率

关于您的问题，您不应该假设如果您从具有4608个内核的GPU切换到具有3000个内核的GPU，性能不会有任何变化。首先，这些信息不足以判断性能（比如时钟速度和其他因素），其次，如果您假设它们是同一代的GPU，那么3000核的GPU可能比4608核的GPU慢一些。这是因为对于一个给定的GPU体系结构，时钟速度、内存带宽等其他因素在3000核的GPU上都可能更低

简而言之，我不会假设推理性能是相同的。这取决于除你在这里指出的以外的其他事情。我认为它可能更快，也可能更慢，这取决于实际的GPU比较

就目前可用的CUDA GPU而言，几乎任何东西的推理性能都可能比Titan RTX慢一些。根据具体的GPU，差异可能很小，可能可以忽略，也可能更大。

简而言之，我不会假设推理性能是相同的。这取决于除你在这里指出的以外的其他事情。我认为它可能更快，也可能更慢，这取决于实际的GPU比较

就目前可用的CUDA GPU而言，几乎任何东西的推理性能都可能比Titan RTX慢一些。根据具体的GPU，差异可能很小，可能可以忽略，也可能更大。

非常感谢您富有洞察力的回复！我比较Titan RTX的GPU是Quadro RTX 5000。我注意到Quadro RTX 5000的核心时钟速度稍慢（1350 MHz vs.1620 MHz），内存带宽较低（448 GB/sec vs.672 GB/sec）。你认为这是影响推理能力的两个更重要的因素吗？如果是这样的话，你认为推理性能会明显变差吗？我认为会变慢/变差。我真的说不清到底多少钱。很可能差别可以忽略不计。非常感谢您富有洞察力的回复！我比较Titan RTX的GPU是Quadro RTX 5000。我注意到Quadro RTX 5000的核心时钟速度稍慢（1350 MHz vs.1620 MHz），内存带宽较低（448 GB/sec vs.672 GB/sec）。你认为这是影响推理能力的两个更重要的因素吗？如果是这样的话，你认为推理性能会明显变差吗？我认为会变慢/变差。我真的说不清到底多少钱。这种差别很可能可以忽略不计。