Cuda 是否有一个可以从内核调用的具有动态并行性的约简算法的良好实现?

Cuda 是否有一个可以从内核调用的具有动态并行性的约简算法的良好实现?,cuda,reduction,Cuda,Reduction,我在前面的文章中讨论了CUDA中的缩减算法(例如对一系列元素的求和和和最大化),但是使用动态并行性,它们可能以不同的方式实现。是否有一个更有效的实现可以从内核内部调用 是否有一个更有效的实现可以从内核内部调用 提供与动态并行性兼容的CUDA简化原语,即可在内核内调用的原语。太棒了!这正是我要找的!你还知道有哪个库可以并行计算多个k-选择,例如,1000000个k-选择并行计算,每个都是在大约10000个元素中找到k-最大的元素吗

我在前面的文章中讨论了CUDA中的缩减算法(例如对一系列元素的求和和和最大化),但是使用动态并行性,它们可能以不同的方式实现。是否有一个更有效的实现可以从内核内部调用

是否有一个更有效的实现可以从内核内部调用


提供与动态并行性兼容的CUDA简化原语,即可在内核内调用的原语。

太棒了!这正是我要找的!你还知道有哪个库可以并行计算多个k-选择,例如,1000000个k-选择并行计算,每个都是在大约10000个元素中找到k-最大的元素吗