C 使用AVX-512收集/分散16位整数

C 使用AVX-512收集/分散16位整数,c,simd,avx512,C,Simd,Avx512,我一直在尝试解决如何使用AVX512中的分散指令分散16位整数。我拥有的是8 x 16位整数,存储在一个_m256i的每个32位整数中。我会使用256位等效的_mm512_i32extscatter_epi32,下变频_MM_DOWNCONV_epi32_UINT16,但没有这样的指令,下变频在AVX512上不起作用 我的理解是。。。我们必须进行32位的读写操作,我们必须小心两个相邻的16位写操作相互破坏(如果中的同一个索引在索引列表中出现了两次,那么我不需要担心哪一次先发生)。因此,我们必须使

我一直在尝试解决如何使用AVX512中的分散指令分散16位整数。我拥有的是8 x 16位整数,存储在一个_m256i的每个32位整数中。我会使用256位等效的_mm512_i32extscatter_epi32,下变频_MM_DOWNCONV_epi32_UINT16,但没有这样的指令,下变频在AVX512上不起作用

我的理解是。。。我们必须进行32位的读写操作,我们必须小心两个相邻的16位写操作相互破坏(如果中的同一个索引在索引列表中出现了两次,那么我不需要担心哪一次先发生)。因此,我们必须使用冲突聚集-分散循环。在循环中,我们必须在32位整数地址上发生冲突,或者16位索引左移1,并用作等效32位数组的索引(等效为将16位数组转换为32位数组,然后将索引除以2)。然后,我们需要读取一个32位整数,根据16位数组中的原始索引是奇数还是偶数,改变高16位还是低16位

下面是我得到的:

  • 计算出索引是奇数还是偶数,并相应地将2位掩码设置为01或10,形成8个整数的16位掩码

  • 通过将低16位复制到高16位,将16位整数转换为32位整数

  • 通过右移1,将索引转换为16位整数数组,将索引转换为32位索引数组

  • 使用带遮罩的Conct循环

  • 掩蔽聚集32位整数

  • 使用_mm256_mask_blend_epi16选择是否更改刚刚读取的32位整数的高16位或低16位(使用(1)中的掩码)

  • 蒙面散射回记忆

  • 重复此操作,直到未写入的32位整数地址中没有冲突

  • 请问,有没有更快(或更简单)的方法?是的,我知道,个人写入速度更快——但这是关于如何使用AVX-512实现的

    代码如下:

    void scatter(uint16_t *array, __m256i vindex, __m256i a)
        {
        __mmask16 odd = _mm256_test_epi16_mask(vindex, _mm256_set1_epi32(1));
        __mmask16 even = ~odd & 0x5555;
        __mmask16 odd_even = odd << 1 | even;
    
        __m256i data = _mm256_mask_blend_epi16(0x5555, _mm256_bslli_epi128(a, 2), a);
    
        __m256i word_locations = _mm256_srli_epi32(vindex, 1);
        __mmask8 unwritten = 0xFF;
        do
            {
            __m256i conflict = _mm256_maskz_conflict_epi32 (unwritten, word_locations);
            conflict = _mm256_and_si256(_mm256_set1_epi32(unwritten), conflict);
            __mmask8 mask = unwritten & _mm256_testn_epi32_mask(conflict, _mm256_set1_epi32(0xFFFF'FFFF));
    
            __m256i was = _mm256_mmask_i32gather_epi32(_mm256_setzero_si256(), mask, word_locations, array, 4);
            __m256i send = _mm256_mask_blend_epi16(odd_even, was, data);
            _mm256_mask_i32scatter_epi32(array, mask, word_locations, send, 4);
    
            unwritten ^= mask;
            }
        while (unwritten != 0);
        }
    
    void scatter(uint16\u t*阵列、\uuuum256i-vindex、\uuuuuum256i-a)
    {
    __mmask16奇数=_mm256_test_epi16_mask(vindex,_mm256_set1_epi32(1));
    __mmask16偶数=~奇数&0x5555;
    
    __mmask16 odd_偶数=odd如果可以安全地读取/写入最后一个索引后的两个字节,那么这也应该可以工作:

    void scatter2(uint16_t *array, __m256i vindex, __m256i a) {
      __mmask8 odd = _mm256_test_epi32_mask(vindex, _mm256_set1_epi32(1));
    
      int32_t* arr32 = (int32_t*)array;
      __m256i was_odd = _mm256_i32gather_epi32(arr32, vindex, 2);
    
      __m256i data_even = _mm256_mask_blend_epi16(0x5555, was_odd, a);
      _mm256_mask_i32scatter_epi32(array, ~odd, vindex, data_even, 2);
      __m256i was_even = _mm256_i32gather_epi32(arr32, vindex, 2);
    
      __m256i data_odd = _mm256_mask_blend_epi16(0x5555, was_even, a);
      _mm256_mask_i32scatter_epi32(array, odd, vindex, data_odd, 2);
    }
    

    如果您可以保证
    vindex
    中的索引在增加(或者至少对于
    vindex
    中任何部分冲突的{
    i
    i+1
    }的索引在
    i
    之后),您可能可以使用单个聚集+混合+分散。此外,使用掩蔽聚集也可能是有益的(即,每次仅收集下一次覆盖的元素)--我不确定这是否会对吞吐量产生影响。最后,
    \u mm256\u mask\u blend\u epi16
    实际上可以被一个简单的
    \u mm256\u blend\u epi16

    取代。你是用8个值还是数百次来做这件事?是否可以将存储切换到32位?如果你不能排除重叠的32位存储,我看不出你是怎么做的可以做得比2x聚集和2x分散更好(两者都比单个加载/存储快得多),我需要做数千次,也需要8位值。我不能使用32位整数,因为它会使数组变大,这会对执行时间产生负面影响,因为缓存命中数减少。