C++ Radeon卡上几个OpenCL内核的并行执行

C++ Radeon卡上几个OpenCL内核的并行执行,c++,hash,opencl,mining,C++,Hash,Opencl,Mining,在Nvivdia卡上,我曾经创建了很多队列,然后将内核放入每个队列中,这样内核就可以并行执行。它过去确实加快了我的程序

在Nvivdia卡上,我曾经创建了很多队列,然后将内核放入每个队列中,这样内核就可以并行执行。它过去确实加快了我的程序<但是现在我用的是Radeon卡,这个把戏不起作用了。我可以在profiler中看到,在设备开始执行内核之前,它会等待前一个内核结束(即使内核在不同的队列中排队)
所以问题是:如何使Radeon卡执行命令队列并行,而不将设备分为多个子设备

也许我应该使用一些自定义驱动程序?

这听起来确实像是驱动程序问题,但也许您的卡一次只能处理一个队列。在这种情况下,您可以尝试将内核排队到单个并发调度队列中。有关这方面的更多信息,请参阅文档。

发布一些派遣代码。这不应该发生。