在OpenCL中使用convert_T()进行显式转换的成本有多高?

在OpenCL中使用convert_T()进行显式转换的成本有多高?,opencl,opencl-c,Opencl,Opencl C,关于问题,通过矢量化操作获得的性能增益是否可能被convert_T()的显式转换所抵消?请注意,变量的默认类型是无符号字符。我正在使用OpenCL2.0。我的GPU是Intel HD Graphics 530(Gen9) 它会在convert\u int4()和convert\u short4()之间产生区别吗?它可能依赖于硬件。如果硬件有它,速度快,如果驱动程序模拟它,速度慢。是的,你最好的办法是检查你的平台生成什么类型的汇编。你可以尝试你自己的位破解魔术,但只能在fpga上快速。浮点到int

关于问题,通过矢量化操作获得的性能增益是否可能被convert_T()的显式转换所抵消?请注意,变量的默认类型是
无符号字符
。我正在使用OpenCL2.0。我的GPU是Intel HD Graphics 530(Gen9)


它会在
convert\u int4()
convert\u short4()
之间产生区别吗?

它可能依赖于硬件。如果硬件有它,速度快,如果驱动程序模拟它,速度慢。是的,你最好的办法是检查你的平台生成什么类型的汇编。你可以尝试你自己的位破解魔术,但只能在fpga上快速。浮点到int可能需要一些转换。但int2short只是移位操作(如果以后在某个地方使用,则为noop,HW可以读取寄存器的LSB)。这完全取决于大小写。@DarkZeros用于(float to int/int to float)?FP32逻辑单元或整数逻辑单元或完全不同但只有几个特殊单元?它可能依赖于硬件。如果硬件有它,速度快,如果驱动程序模拟它,速度慢。是的,你最好的办法是检查你的平台生成什么类型的汇编。你可以尝试你自己的位破解魔术,但只能在fpga上快速。浮点到int可能需要一些转换。但int2short只是移位操作(如果以后在某个地方使用,则为noop,HW可以读取寄存器的LSB)。这完全取决于大小写。@DarkZeros用于(float to int/int to float)?FP32逻辑单元或整数逻辑单元还是完全不同但只有几个特殊单元?