在opencl内核中使用原子函数时，读取主机内存中的数据时出错CLU OUT OF_资源_Opencl_Gpgpu_Gpu

在opencl内核中使用原子函数时，读取主机内存中的数据时出错CLU OUT OF_资源

opencl

在opencl内核中使用原子函数时，读取主机内存中的数据时出错CLU OUT OF_资源,opencl,gpgpu,gpu,Opencl,Gpgpu,Gpu,我试图在我的opencl内核中实现原子函数。我正在创建的多个线程正在并行地尝试写入单个内存位置。我想让他们在特定的代码行上执行串行执行。我以前从未使用过原子函数我在许多博客和论坛上发现了类似的问题，我正在尝试一种解决方案，即使用两个不同的函数“acquire”和“release”来锁定和解锁信号量。我已经包括了必要的opencl扩展，这些都是我的设备（NVIDIA GeForce GTX 630M）肯定支持的我的内核执行配置： global_item_size = 8; ret = clEn

我试图在我的opencl内核中实现原子函数。我正在创建的多个线程正在并行地尝试写入单个内存位置。我想让他们在特定的代码行上执行串行执行。我以前从未使用过原子函数

我在许多博客和论坛上发现了类似的问题，我正在尝试一种解决方案，即使用两个不同的函数“acquire”和“release”来锁定和解锁信号量。我已经包括了必要的opencl扩展，这些都是我的设备（NVIDIA GeForce GTX 630M）肯定支持的

我的内核执行配置：

global_item_size = 8;
ret = clEnqueueNDRangeKernel(command_queue2, kernel2, 1, NULL, &global_item_size2, &local_item_size2, 0, NULL, NULL);

这是我的代码：reducer.cl

#pragma OPENCL EXTENSION cl_khr_fp64 : enable
#pragma OPENCL EXTENSION cl_khr_global_int32_base_atomics : enable
#pragma OPENCL EXTENSION cl_khr_local_int32_base_atomics : enable
#pragma OPENCL EXTENSION cl_khr_global_int32_extended_atomics : enable
#pragma OPENCL EXTENSION cl_khr_local_int32_extended_atomics : enable

typedef struct data
{
  double dattr[10];
  int d_id;
  int bestCent;
}Data;

typedef struct cent
{
  double cattr[5];
  int c_id;
}Cent;

__global void acquire(__global int* mutex)
{
    int occupied;
    do {
        occupied = atom_xchg(mutex, 1);
    } while (occupied>0);
}

__global void release(__global int* mutex)
{
    atom_xchg(mutex, 0); //the previous value, which is returned, is ignored
}

__kernel void reducer(__global int *keyMobj, __global int *valueMobj,__global Data *dataMobj,__global Cent *centMobj,__global int *countMobj,__global double *sumMobj, __global int *mutex)
{
  __local double sum[2][2];
  __local int cnt[2];

  int i = get_global_id(0);
  int n,j;

  if(i<2)
    cnt[i] = countMobj[i];
  barrier(CLK_GLOBAL_MEM_FENCE);

  n = keyMobj[i];
  for(j=0; j<2; j++)
  {
     barrier(CLK_GLOBAL_MEM_FENCE);
          acquire(mutex);
             sum[n][j] += dataMobj[i].dattr[j];
      release(mutex);
  }

  if(i<2)
  {
    for(j=0; j<2; j++)
    {
       sum[i][j] = sum[i][j]/countMobj[i];
       centMobj[i].cattr[j] = sum[i][j];
    }
  }
}

它给出了centMobj和sumMobj的错误代码为-5（资源中的CL_OUT_）的错误

我不知道我的原子函数代码中是否有任何问题，或者问题是将数据读回主机内存中。如果我不正确地使用原子函数，请纠正我的错误。

提前感谢。

在OpenCL中，工作项之间的同步只能在工作组内完成。尝试在不同工作组之间同步工作项的代码可能在某些非常特定的情况下（以及与实现/设备相关的情况下）起作用，但在一般情况下，将失败

解决方案是使用原子将对同一内存位置的访问序列化（但不阻止任何工作项），或者以不同的方式重新设计代码。
您的意思是说我不能在属于不同组的工作项之间进行同步？即使是原子函数？如果我保留我的本地工作大小=1怎么办？
ret = clEnqueueReadBuffer(command_queue2, centMobj, CL_TRUE, 0, (sizeof(Cent) * 2), centNode, 0, NULL, NULL); ret = clEnqueueReadBuffer(command_queue2, sumMobj, CL_TRUE, 0, (sizeof(double) * 2 * 2), sum, 0, NULL, NULL);