Cuda 开普勒中的并发内核数

Cuda 开普勒中的并发内核数,cuda,Cuda,在费米中,我们可以发射16个并发内核。我们可以在开普勒推出多少种内核?这个数字是相同的还是他们也增加了这个数字?并发内核的数量从16个增加到了32个,需要满足各种各样的要求才能真正观察并发内核的执行情况,搜索本网站就会发现这一点(在本页右上角的搜索框中搜索cuda并发内核以获得一个想法。)我正在查看该页,不确定应该查看什么。它链接到a,我正在尝试查找在3.5中从16更改为32的行。我看到了“每个设备的最大驻留网格数”,但这个数字(在短暂地点击128之后!)已经下降到16。这不可能是正确的吗?我看

在费米中,我们可以发射16个并发内核。我们可以在开普勒推出多少种内核?这个数字是相同的还是他们也增加了这个数字?

并发内核的数量从16个增加到了32个,需要满足各种各样的要求才能真正观察并发内核的执行情况,搜索本网站就会发现这一点(在本页右上角的搜索框中搜索cuda并发内核以获得一个想法。)

我正在查看该页,不确定应该查看什么。它链接到a,我正在尝试查找在3.5中从16更改为32的行。我看到了“每个设备的最大驻留网格数”,但这个数字(在短暂地点击128之后!)已经下降到16。这不可能是正确的吗?我看到“每个多处理器的最大驻留块数,”从16变为32,但这是在compute 5.0中。请澄清?这个问题考虑到了费米和开普勒。费米是cc 2.x。开普勒是cc 3.x,但我的答案特别提到了cc3.5。表13“每个设备的最大驻留网格数”费米显示了16个,cc 3.5显示了32个。而且,是的,对于其他家庭,如麦克斯韦和帕斯卡,这在2013年的回答中都不存在。我无意批评。这在2013年是个好答案。我知道我应该寻找“每个设备的最大驻留网格数”帮助我在2017年更新它。我想知道你们在想什么,把它从128(哇!)降到16(哈?),但我相信这是有原因的。对我来说更有用的是知道去哪里看。现在我知道了,所以谢谢。再投票一次。128是P100(cc 6.0)该处理器是Pascal的旗舰,无论以何种标准衡量,它都是一个巨大的设备,并且正在寻找各种公开的并行性。公开并行性的一个向量是通过并发内核,因此P100想要得到你能扔给它的任何东西。该表中的最后16个数字是cc6.2,我相信是Jetson TX2。这是一个SOC但是设备上有2个短消息,晶体管、不动产和电源供应不足。因此,通过设计,降低并发内核向量的能力受到了更大的限制。是的,减少这个数量可以节省晶体管。明智地在任何设置中使用16个并发内核都是一个挑战,因此这一讨论有点学术性。