一系列子群的OpenCL屏障_Opencl_Gpgpu_Gpu_Amd Gpu

一系列子群的OpenCL屏障

opencl

一系列子群的OpenCL屏障,opencl,gpgpu,gpu,amd-gpu,Opencl,Gpgpu,Gpu,Amd Gpu,在OpenGL 2.1中，工作组被细分为子组work\u group\u barrier（）同步工作组中的所有工作项，sub\u group\u barrier（）仅同步一个子组中的工作项是否可以同步一系列子组中的工作项例如，一个工作组由5个子组组成，每个子组包含64个工作项。子组0和1（=工作项0-128）应同步，以便子组0中的工作项在屏障关闭后可以访问子组1写入的数据）。同时，子组2、3和4可以在不参与同步的情况下继续，可能执行代码的不同部分在CUDA中，这对于使用内联PTX组件的翘曲

在OpenGL 2.1中，工作组被细分为子组

work\u group\u barrier（）

同步工作组中的所有工作项，

sub\u group\u barrier（）

仅同步一个子组中的工作项

是否可以同步一系列子组中的工作项

例如，一个工作组由5个子组组成，每个子组包含64个工作项。子组0和1（=工作项0-128）应同步，以便子组0中的工作项在屏障关闭后可以访问子组1写入的数据）。同时，子组2、3和4可以在不参与同步的情况下继续，可能执行代码的不同部分

在CUDA中，这对于使用内联PTX组件的翘曲（相当于子组，32个线程）是可能的：

在AMD平台上使用OpenCL有没有办法做到这一点，也可以使用内联汇编代码？如果没有，AMD平台是否有另一种GPGPU API/语言允许这样做