Opencl 组大小与执行时间?

Opencl 组大小与执行时间?,opencl,Opencl,我做了一个简单的程序,放了一个向量加法器,想测试执行时间和组大小的关系。 当我将groupsize从1024更改为5012到256再更改为128时。执行时间非常相似。为什么?在我看来,当我使用较小的GroupSize时,我们应该有更多的组,它们可以在内核中并行工作,从而减少执行时间(例如,如果workgroupsize从512更改为256,执行时间应该减少一半?),但在我的gpu实验中,执行时间是siilar?我的观点是错误的吗?因为每个组的工作项数不是向量加法的可见瓶颈。全局内存性能是一个瓶颈

我做了一个简单的程序,放了一个向量加法器,想测试执行时间和组大小的关系。
当我将groupsize从1024更改为5012到256再更改为128时。执行时间非常相似。为什么?在我看来,当我使用较小的GroupSize时,我们应该有更多的组,它们可以在内核中并行工作,从而减少执行时间(例如,如果workgroupsize从512更改为256,执行时间应该减少一半?),但在我的gpu实验中,执行时间是siilar?我的观点是错误的吗?

因为每个组的工作项数不是向量加法的可见瓶颈。全局内存性能是一个瓶颈。若数据来自主机,则pci-e性能也是瓶颈