Cuda 开普勒中的并发内核数_Cuda

Cuda 开普勒中的并发内核数

cuda

Cuda 开普勒中的并发内核数,cuda,Cuda,在费米中，我们可以发射16个并发内核。我们可以在开普勒推出多少种内核？这个数字是相同的还是他们也增加了这个数字？并发内核的数量从16个增加到了32个，需要满足各种各样的要求才能真正观察并发内核的执行情况，搜索本网站就会发现这一点（在本页右上角的搜索框中搜索cuda并发内核以获得一个想法。）我正在查看该页，不确定应该查看什么。它链接到a，我正在尝试查找在3.5中从16更改为32的行。我看到了“每个设备的最大驻留网格数”，但这个数字（在短暂地点击128之后！）已经下降到16。这不可能是正确的吗？我看

在费米中，我们可以发射16个并发内核。我们可以在开普勒推出多少种内核？这个数字是相同的还是他们也增加了这个数字？

并发内核的数量从16个增加到了32个，需要满足各种各样的要求才能真正观察并发内核的执行情况，搜索本网站就会发现这一点（在本页右上角的搜索框中搜索cuda并发内核以获得一个想法。）

我正在查看该页，不确定应该查看什么。它链接到a，我正在尝试查找在3.5中从16更改为32的行。我看到了“每个设备的最大驻留网格数”，但这个数字（在短暂地点击128之后！）已经下降到16。这不可能是正确的吗？我看到“每个多处理器的最大驻留块数，”从16变为32，但这是在compute 5.0中。请澄清？这个问题考虑到了费米和开普勒。费米是cc 2.x。开普勒是cc 3.x，但我的答案特别提到了cc3.5。表13“每个设备的最大驻留网格数”费米显示了16个，cc 3.5显示了32个。而且，是的，对于其他家庭，如麦克斯韦和帕斯卡，这在2013年的回答中都不存在。我无意批评。这在2013年是个好答案。我知道我应该寻找“每个设备的最大驻留网格数”帮助我在2017年更新它。我想知道你们在想什么，把它从128（哇！）降到16（哈？），但我相信这是有原因的。对我来说更有用的是知道去哪里看。现在我知道了，所以谢谢。再投票一次。128是P100（cc 6.0）该处理器是Pascal的旗舰，无论以何种标准衡量，它都是一个巨大的设备，并且正在寻找各种公开的并行性。公开并行性的一个向量是通过并发内核，因此P100想要得到你能扔给它的任何东西。该表中的最后16个数字是cc6.2，我相信是Jetson TX2。这是一个SOC但是设备上有2个短消息，晶体管、不动产和电源供应不足。因此，通过设计，降低并发内核向量的能力受到了更大的限制。是的，减少这个数量可以节省晶体管。明智地在任何设置中使用16个并发内核都是一个挑战，因此这一讨论有点学术性。