C++ OpenCL-矢量化与线程内for循环_C++_Kernel_Opencl

C++ OpenCL-矢量化与线程内for循环

c++ kernel opencl

C++ OpenCL-矢量化与线程内for循环,c++,kernel,opencl,C++,Kernel,Opencl,我有一个问题，我需要并行处理已知数量的线程（很棒），但每个线程的内部迭代次数可能相差很大（不是很棒）。在我看来，这样做可以更好地执行如下内核方案： __kernel something(whatever) { unsigned int glIDx = get_global_id(0); for(condition_from_whatever) { }//alternatively, do while } 其中，id（0）是事先已知的，而不是： __kernel s

我有一个问题，我需要并行处理已知数量的线程（很棒），但每个线程的内部迭代次数可能相差很大（不是很棒）。在我看来，这样做可以更好地执行如下内核方案：

__kernel something(whatever)
{
   unsigned int glIDx = get_global_id(0);

   for(condition_from_whatever)
   {

   }//alternatively, do while

}

其中，id（0）是事先已知的，而不是：

__kernel something(whatever)
{
   unsigned int glIDx = get_global_id(0);
   unsigned int glIDy = get_global_id(1); // max "unroll dimension"

   if( glIDy_meets_condition)
      do_something();
   else
      dont_do_anything();

}

根据本讨论，必须在所有可能的glIDy范围内执行，且无法提前终止：

我似乎找不到关于内核中动态大小的forloops/do while语句的成本的任何具体信息，尽管我确实在Nvidia和AMD的SDK的内核中随处可见。我记得读过一些关于内核内条件分支越不定期，性能就越差的文章

实际问题:

在GPU架构上有没有比我提出的第一个方案更有效的方法来处理这个问题

我也愿意了解关于这个话题的一般信息

谢谢。

我更喜欢第二个版本，因为

for

在迭代之间插入了错误的依赖关系。如果内部迭代是独立的，则将每个迭代发送到不同的工作项，并让OpenCL实现确定如何最好地运行它们

两个警告：

如果平均迭代次数明显低于最大迭代次数，那么这可能不值得额外的虚拟工作项
您将有更多的工作项，您仍然需要计算每个工作项的条件。。。如果计算条件复杂，这可能不是一个好主意。
- 或者，您可以将索引展平到x维度，将所有迭代分组到同一个工作组中，然后仅对每个工作组计算一次条件，并使用本地内存+屏障进行同步

如果您的问题不能按刚才描述的方式组织，我建议考虑使用OPENCL，它在处理分支方面相当好。如果我记得清楚的话，通常每个工作组都有一个工作项。在这种情况下，最好查看英特尔和AMD的CPU文档。我也非常喜欢第6章，它解释了在编程时将OCL与GPU和CPU一起使用的区别