C 将代码转换为程序集
我正在把下面的代码翻译成Neon汇编。任何帮助都将不胜感激C 将代码转换为程序集,c,assembly,arm,simd,neon,C,Assembly,Arm,Simd,Neon,我正在把下面的代码翻译成Neon汇编。任何帮助都将不胜感激 void sum(int length, int *a, int *b, int *c, int *d, char *result) { int i; for (i = 0; i < length; i++) { int sum = (a[i] + b[i] + c[i] + d[i])/4; if (sum > threshold)
void sum(int length, int *a, int *b, int *c, int *d, char *result)
{
int i;
for (i = 0; i < length; i++)
{
int sum = (a[i] + b[i] + c[i] + d[i])/4;
if (sum > threshold)
result[i] = 1;
else
result[i] = 0;
}
}
void和(int-length,int*a,int*b,int*c,int*d,char*result)
{
int i;
对于(i=0;i阈值)
结果[i]=1;
其他的
结果[i]=0;
}
}
实际代码是一个图像二值化算法。上面的代码只是为了演示这个想法,而不是让简单的事情变得更复杂。这里是一个相当简单的实现。请注意,我们将除法和阈值测试转换为仅针对
threshold*4
的测试(以消除除法):
void sum(常数int n、常数int32_t*a、常数int32_t*b、常数int32_t*c、常数int32_t*d、常数int32_t*result)
{
const int32_t threshold4=阈值*4;
const int32x4_t vthreshold4={threshold4,threshold4,threshold4};
常数uint32x4_t vk1={1,1,1,1};
int i;
对于(i=0;i
注:
- 完全未经测试的代码-可能需要进一步的工作
已更改为result
——压缩为int32\u t*
并不难,但它给这个初始示例增加了很多复杂性,因此我认为现在应该保持简单uint8\u t
,a
,b
,c
,d
结果都需要16字节对齐
需要是4的倍数n
、a
、b
、c
的总和需要在32位带符号整数内d
需要适合32位带符号整数阈值*4
int32x4\u t vthreshold4={threshold4,threshold4,threshold4,threshold4}
和uint32x4\u t vk1={1,1,1}
。我在关键代码路径上有一个函数,由于算法规范(BLAKE2加密散列),它必须多次执行该操作。@jww:编译器应该足够聪明,能够将这样的常量从任何封闭循环中提升出来,即使它来自内联函数-您检查过生成的代码吗?否则,您可以将初始化的常量作为参数传递到函数中。
void sum(const int n, const int32_t *a, const int32_t *b, const int32_t *c, const int32_t *d, int32_t *result)
{
const int32_t threshold4 = threshold * 4;
const int32x4_t vthreshold4 = { threshold4, threshold4, threshold4, threshold4 };
const uint32x4_t vk1 = { 1, 1, 1, 1 };
int i;
for (i = 0; i < n; i += 4)
{
int32x4_t va = vld1q_s32(&a[i]); // load values from a, b, c, d
int32x4_t vb = vld1q_s32(&b[i]);
int32x4_t vc = vld1q_s32(&c[i]);
int32x4_t vd = vld1q_s32(&d[i]);
int32x4_t vsum = vaddq_s32(va, vb); // sum values form a, b, c, d
vsum = vaddq_s32(vsum, vc);
vsum = vaddq_s32(vsum, vd);
uint32x4_t vcmp = vcgtq_s32(vsum, vthreshold4);
// compare with threshold * 4
int32x4_t vresult = (int32x4_t)vandq_u32(vcmp, vk1);
// convert result to 0/1
vst1q_s32(&result[i], vresult); // store result
}
}