Optimization 内核工作问题和执行成本
我有两个问题:Optimization 内核工作问题和执行成本,optimization,opencl,Optimization,Opencl,我有两个问题: 让内核工作过度还是工作不足更好?假设我想计算一个只有4个GPU内核的差分图像。我是否认为我的图像中的任何像素是由1个线程独立计算的呢?还是应该用1个线程来计算我的图像的整行呢?我不知道哪种解决方案最适合使用。我已经矢量化了第一个选项(这是强制的),但我只获得了一些ms,这不是很有意义 我的第二个问题是关于内核的执行成本。我知道如何度量任何OpenCL命令队列任务(复制、写入、读取、内核…),但我认为主机将内核加载到GPU内核需要一段时间。有什么办法来评估它吗 巴普蒂斯特 通常,您