如何推断Altera opencl设计中的扇出?

如何推断Altera opencl设计中的扇出?,opencl,fpga,intel-fpga,Opencl,Fpga,Intel Fpga,我目前正在PFGA上的Altera openCL设计中实现一个二维PE阵列。在这个实现中,每个BRAM同时提供多个PE,但是看起来编译器无法推断出这种扇出设计。有人知道如何在OpenCLC代码中实现这一点吗?(只是一点小意思)我没有这个硬件,但你试过常数限定符吗?因为常量将作为只读变量广播到所有工作项。也许您可以先将数据发送到_局部变量,然后广播到所有组项?我听说编译一个内核需要几个小时,还是那么长吗?谢谢回复!我在一个任务内核中做到了这一点(PEs是通过对普通mac函数的函数调用来实例化的,硬

我目前正在PFGA上的Altera openCL设计中实现一个二维PE阵列。在这个实现中,每个BRAM同时提供多个PE,但是看起来编译器无法推断出这种扇出设计。有人知道如何在OpenCLC代码中实现这一点吗?

(只是一点小意思)我没有这个硬件,但你试过常数限定符吗?因为常量将作为只读变量广播到所有工作项。也许您可以先将数据发送到_局部变量,然后广播到所有组项?我听说编译一个内核需要几个小时,还是那么长吗?谢谢回复!我在一个任务内核中做到了这一点(PEs是通过对普通mac函数的函数调用来实例化的,硬件是通过展开循环两次来复制的),我们需要代码和错误消息来帮助您。(只是一粒盐)我没有这个硬件,但您是否尝试了uu常量限定符?因为常量将作为只读变量广播到所有工作项。也许您可以先将数据发送到_局部变量,然后广播到所有组项?我听说编译一个内核需要几个小时,还是那么长吗?谢谢回复!我在一个任务内核中完成了这项工作(PEs通过对普通mac函数的函数调用实例化,硬件通过两次展开循环来复制),我们需要代码和错误消息来帮助您。