一系列子群的OpenCL屏障

一系列子群的OpenCL屏障,opencl,gpgpu,gpu,amd-gpu,Opencl,Gpgpu,Gpu,Amd Gpu,在OpenGL 2.1中,工作组被细分为子组work\u group\u barrier()同步工作组中的所有工作项,sub\u group\u barrier()仅同步一个子组中的工作项 是否可以同步一系列子组中的工作项 例如,一个工作组由5个子组组成,每个子组包含64个工作项。子组0和1(=工作项0-128)应同步,以便子组0中的工作项在屏障关闭后可以访问子组1写入的数据)。同时,子组2、3和4可以在不参与同步的情况下继续,可能执行代码的不同部分 在CUDA中,这对于使用内联PTX组件的翘曲

在OpenGL 2.1中,工作组被细分为子组
work\u group\u barrier()
同步工作组中的所有工作项,
sub\u group\u barrier()
仅同步一个子组中的工作项

是否可以同步一系列子组中的工作项

例如,一个工作组由5个子组组成,每个子组包含64个工作项。子组0和1(=工作项0-128)应同步,以便子组0中的工作项在屏障关闭后可以访问子组1写入的数据)。同时,子组2、3和4可以在不参与同步的情况下继续,可能执行代码的不同部分

在CUDA中,这对于使用内联PTX组件的翘曲(相当于子组,32个线程)是可能的:

在AMD平台上使用OpenCL有没有办法做到这一点,也可以使用内联汇编代码?如果没有,AMD平台是否有另一种GPGPU API/语言允许这样做