C++ SIMD m256i到m256d转换结果_C++_X86_Simd_Intrinsics_Avx2 - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/cplusplus/144.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C++ SIMD m256i到m256d转换结果_C++_X86_Simd_Intrinsics_Avx2 - Fatal编程技术网

C++ SIMD m256i到m256d转换结果

c++ x86

C++ SIMD m256i到m256d转换结果,c++,x86,simd,intrinsics,avx2,C++,X86,Simd,Intrinsics,Avx2,我试图将SIMD整数变量转换为双精度变量。但我看不出这次行动会有什么结果。例如：由于此操作，我的temp2中的成员是什么此操作的结果是，temp2将包含垃圾。例如，第一条双车道将为4.0146351468550722e-305 这是故意的\u mm256\u castsi256\u pd内在函数不转换值，它只将寄存器中的位重新解释为双精度如果要在寄存器中使用这些双常量，只需使用\u mm256\u setr\u pd固有值： // Set double values to the con

我试图将SIMD整数变量转换为双精度变量。但我看不出这次行动会有什么结果。例如：

由于此操作，我的temp2中的成员是什么

此操作的结果是，temp2将包含垃圾。例如，第一条双车道将为4.0146351468550722e-305

这是故意的<代码>\u mm256\u castsi256\u pd内在函数不转换值，它只将寄存器中的位重新解释为双精度

如果要在寄存器中使用这些双常量，只需使用

\u mm256\u setr\u pd

固有值：

// Set double values to the constants
__m256d temp2 = _mm256_setr_pd( 12345678, 12333333, 12344444, 12355555 );

或者，如果这些值不是常量，请使用_mm256_cvtepi32_pd intrinsive，下面是一个完整的示例：

alignas( 32 ) int arr[ 8 ] = { 12345678, 12333333, 12344444, 12355555,
    12366666, 12377777, 12388888, 12399999 };
__m256i integers = _mm256_load_si256( ( const __m256i* ) &arr );
// Convert first 4 int32 values to doubles
__m256d lowDoubles = _mm256_cvtepi32_pd( _mm256_castsi256_si128( integers ) );
// Convert last 4 values to doubles
__m256d highDoubles = _mm256_cvtepi32_pd( _mm256_extracti128_si256( integers, 1 ) );

这实际上将转换值，而不是位转换

AVX寄存器保存256位数据。这是

\uuuum256i

类型中的8个int32值，是

\uuum256

数据类型中的8个浮点值，但在

\uuuum256d

类型中只有4个双值

另外，您的代码中也存在对齐错误，最好的修复方法是在

int-arr[8]

之前添加

alignas（32）

。由于此操作，temp2将包含垃圾。例如，第一条双车道将为4.0146351468550722e-305

这是故意的<代码>\u mm256\u castsi256\u pd内在函数不转换值，它只将寄存器中的位重新解释为双精度

如果要在寄存器中使用这些双常量，只需使用

\u mm256\u setr\u pd

固有值：

// Set double values to the constants
__m256d temp2 = _mm256_setr_pd( 12345678, 12333333, 12344444, 12355555 );

或者，如果这些值不是常量，请使用_mm256_cvtepi32_pd intrinsive，下面是一个完整的示例：

alignas( 32 ) int arr[ 8 ] = { 12345678, 12333333, 12344444, 12355555,
    12366666, 12377777, 12388888, 12399999 };
__m256i integers = _mm256_load_si256( ( const __m256i* ) &arr );
// Convert first 4 int32 values to doubles
__m256d lowDoubles = _mm256_cvtepi32_pd( _mm256_castsi256_si128( integers ) );
// Convert last 4 values to doubles
__m256d highDoubles = _mm256_cvtepi32_pd( _mm256_extracti128_si256( integers, 1 ) );

这实际上将转换值，而不是位转换

AVX寄存器保存256位数据。这是

\uuuum256i

类型中的8个int32值，是

\uuum256

数据类型中的8个浮点值，但在

\uuuum256d

类型中只有4个双值

另外，代码中也存在对齐错误，最好的修复方法是在

int-arr[8]之前添加alignas（32）
temp2
中的成员将是：
{4.014635e-305, 4.062922e-305, 4.111209e-305, 4.159495e-305}

如何获取这些值
只需将SIMD数据写入一个double
数组中，并将其打印出来即可
#include <stdio.h>
#include <immintrin.h>

int main(void) {
    int hoge[4]; /* hack that worked on tested environment to avoid Segmentation Fault */
    double result[4];
    int i;

    int arr[8]={12345678,12333333,12344444,12355555,12366666,12377777,12388888,12399999};
    __m256i temp = _mm256_load_si256((__m256i *) arr);
    __m256d temp2 = _mm256_castsi256_pd (temp);

    _mm256_storeu_pd(result, temp2);
    for (i = 0; i < 4; i++) printf("result[%d] = %.6e (%.15a)\n", i, result[i], result[i]);
    return 0;
}

您可以通过将SIMD数据写入double
数组
当将未对齐32字节的地址传递到时，可能会生成异常，因此您应该进行对齐。实际上，Wandbox上出现了分段错误，因此我插入了虚拟数组hoge
，以进行对齐
获得这些值的原因
实际上只是复制字节并更改其解释
假设使用小尾端且int为4字节长，
在字节寻址存储器中，arr
中的数据如下：
data in arr[8]:
|   12345678|   12333333|   12344444|   12355555|   12366666|   12377777|   12388888|   12399999|
byte data in arr[8] (in little endian):
|4e 61 bc 00|15 31 bc 00|7c 5c bc 00|e3 87 bc 00|4a b3 bc 00|b1 de bc 00|18 0a bd 00|7f 35 bd 00|
data seen as 64-bit hex:
|     0x00bc311500bc614e|     0x00bc87e300bc5c7c|     0x00bcdeb100bcb34a|     0x00bd357f00bd0a18|

然后，假设在double
中使用64位，64位数据由1位符号、11位指数和52位有效位组成
以第一个元素0x00bc311500bc614e
为例，符号位为0
（加/零），指数为0x00b
（11-1023=-1012），有效位为0xc311500bc614e

这与上面示例代码中通过%.15a打印的内容相匹配。
（额外打印两个0
s，因为指定了打印15位数字，而只对13位数字的数据进行了重新排序，因此剩余部分用0填充）
其他元素也与此匹配。简短回答
temp2
中的成员将是：
{4.014635e-305, 4.062922e-305, 4.111209e-305, 4.159495e-305}

如何获取这些值
只需将SIMD数据写入一个double
数组中，并将其打印出来即可
#include <stdio.h>
#include <immintrin.h>

int main(void) {
    int hoge[4]; /* hack that worked on tested environment to avoid Segmentation Fault */
    double result[4];
    int i;

    int arr[8]={12345678,12333333,12344444,12355555,12366666,12377777,12388888,12399999};
    __m256i temp = _mm256_load_si256((__m256i *) arr);
    __m256d temp2 = _mm256_castsi256_pd (temp);

    _mm256_storeu_pd(result, temp2);
    for (i = 0; i < 4; i++) printf("result[%d] = %.6e (%.15a)\n", i, result[i], result[i]);
    return 0;
}

您可以通过将SIMD数据写入double
数组
当将未对齐32字节的地址传递到时，可能会生成异常，因此您应该进行对齐。实际上，Wandbox上出现了分段错误，因此我插入了虚拟数组hoge
，以进行对齐
获得这些值的原因
实际上只是复制字节并更改其解释
假设使用小尾端且int为4字节长，
在字节寻址存储器中，arr
中的数据如下：
data in arr[8]:
|   12345678|   12333333|   12344444|   12355555|   12366666|   12377777|   12388888|   12399999|
byte data in arr[8] (in little endian):
|4e 61 bc 00|15 31 bc 00|7c 5c bc 00|e3 87 bc 00|4a b3 bc 00|b1 de bc 00|18 0a bd 00|7f 35 bd 00|
data seen as 64-bit hex:
|     0x00bc311500bc614e|     0x00bc87e300bc5c7c|     0x00bcdeb100bcb34a|     0x00bd357f00bd0a18|

然后，假设在double
中使用64位，64位数据由1位符号、11位指数和52位有效位组成
以第一个元素0x00bc311500bc614e
为例，符号位为0
（加/零），指数为0x00b
（11-1023=-1012），有效位为0xc311500bc614e

这与上面示例代码中通过%.15a打印的内容相匹配。
（额外打印两个0
s，因为指定了打印15位数字，而只对13位数字的数据进行了重新排序，因此剩余部分用0填充）
其他元素也像这样匹配。
操作\u mm256\u castsi256\u pd
实际上什么都不做，它是一种重新解释-相当于：
  int v_i;
  double d_i = *((double*)(int*)&v_i).

使用\uuuum256d\umm256\ucvtepi32\upd（\uuuum128i a）
，因为它实际上将4个整数转换为4个双精度
alignas(16) int arr[4]={12345678,12333333,12344444,12355555};
__m128i temp = _mm_load_si128((__m128i *) arr);
__m256d temp2 = _mm256_cvtepi32_pd(temp);

注意：加载操作要求地址正确对齐。否则，请使用未对齐的版本\u mm\u loadu\u si128
和\u mm256\u loadu\u si256
；虽然未对齐的版本速度较慢。
操作\u mm256\u castsi256\u pd
实际上什么都不做，但它是一种重新解释-相当于：
  int v_i;
  double d_i = *((double*)(int*)&v_i).

使用\uuuum256d\umm256\ucvtepi32\upd（\uuuum128i a）
，因为它实际上将4个整数转换为4个双精度
alignas(16) int arr[4]={12345678,12333333,12344444,12355555};
__m128i temp = _mm_load_si128((__m128i *) arr);
__m256d temp2 = _mm256_cvtepi32_pd(temp);

注意：加载操作要求地址正确对齐。否则，请使用未对齐的版本\u mm\u loadu\u si128
和\u mm256\u loadu\u si256
；认为未对齐的版本比较慢。
为什么使用可能导致故障的\u mm256\u loadu\u si256
，而不是\u mm256\u loadu\u si25




[x86]相关文章推荐



                                                        
x86、x32和x64体系结构之间的差异？
x86 
X86 为什么可以'；你不能直接设置指令指针吗？
x86 
X86 为什么报告说在没有超线程的处理器上支持超线程？
x86 
X86 分支预测-有关目标预测和使用PC的问题
x86 
X86 是否有任何指令添加MMX寄存器中的所有字节？
x86 
X86 分支预测器单元的输入？
x86 
x86实模式在带有<；的机器上是如何工作的；640K内存？
x86 
如何从USB驱动器在x86系统上启动QNX？
x86operating-system 
X86 缓冲区溢出：如何从ESP进行相对跳转？
x86 
X86 如何应对平台碎片化，设备树是答案吗？
x86arm 
X86 为什么IA 32任务是不可重入的
x86 
INT_MIN*-1在x86上是不可用的吗？
x86 
X86 以实模式显示字符而不显示int 10h？
x86operating-system 
x86 ASM:DD用作一个；说明；？
x86kernel 
X86 PCIe插槽上的SMBus
x86kernel 
X86 CPUID会序列化推测性数据缓存吗？
x86 
nasm x86:将要发送的有效负载解释为NULL的发送系统调用
x86 
X86 尝试“sti”时出现一般保护故障`
x86 
X86 应该或不应该'；在将XGETBV的结果用于XSETBV之前，我是否会屏蔽它们？
x86 
在x86机器代码中调用绝对指针
x86 
                                       





随机文章推荐



                                                        
Opengl es 使用opengles绘制图像
opengl-es 
Opengl es 开放式GL ES 2.0坐标系
opengl-es 
Opengl es 渲染多边形的计数
opengl-es 
Opengl es OpenGL ES 2.0中未声明的glMapBuffer
opengl-es 
Opengl es Android opengl es 1.x制作了一个简单的水/海洋效果
opengl-es 
Opengl es 当alpha被遮罩时，为什么WebGL画布在第二帧变为白色？
opengl-eswebgl 
Opengl es 如何将纹理或纹理区域保存到libgdx中的文件？
opengl-eslibgdx 
Opengl es OpenGL ES 2.0绘制多个纹理
opengl-es 
Opengl es 在GLKit中启用light0会导致颜色丢失
opengl-es 
Opengl es 使用OpenGL ES 3.0从顶点着色器访问VBO
opengl-esios7 
Opengl es SGX 530上的eglSwapBuffer速度较慢
opengl-esandroid-ndk 
Opengl es 无法在Monodroid中使用GL11ExtensionPack
opengl-esxamarin.android 
Opengl es 用于IMX6的Qt Enterprise是否未使用硬件加速？
opengl-eswebgl 
Opengl es 使用opengl es 2.0在glsl中执行透视扭曲时如何正确映射纹理
opengl-esglsl 
Opengl es GLSL片段着色器中的动态工作量
opengl-esglsl 
Opengl es 如何使用OpenGL（Gles2WatchFaceService）在Android Wear上获得触摸输入？
opengl-es 
Opengl es 光晕着色器似乎放错了位置
我想得到一个中间有发光的渐变圆。使用我的代码中使用的方法。但有些地方出了问题。中间的发光部分不能精确地居中。辉光下的底部比顶部大。检查了油漆上的像素，只是为了确定这不是一种视觉错觉
如图所示：
opengl-esglsl 
Opengl es 用触发器来衡量移动GPU的性能是否足够？
opengl-es


                                        

                                        
                                        


                                                
                                                        [c++]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Telegram
Ipython
Dart
Android
Pandas
Rust
Silverlight 4.0
Ethereum
Azure Active Directory
Windows
Plone
Sql Server 2008
Ibm Midrange
Ruby On Rails 3.2
Notepad++
Apache
Ant
Jira
Text
Data Binding
Oracle11g
Pycharm
Polymer
Exchange Server
Recursion
Ms Office
Linq
Winforms
Session
Module
Signalr
Smalltalk
Ipad
Video Streaming
Webpack
Tfs
Iphone
View
Generics
Uwp
Ios6
Python 2.7
Html
Redux
Swing
Service
Image Processing
Azure Ad B2c
Fonts
C
Sql
Loopbackjs
Domain Driven Design
Spring Security
Sql Server 2008 R2
Fiware
Utf 8
Google Colaboratory
Actionscript
Dynamic
Plot
Dojo
Protractor
Redirect
Openstack
Macos
Unit Testing
Language Agnostic
Twig
Visual C++
Properties
Jestjs
Cocos2d Iphone
Google Cloud Firestore
Twitter Bootstrap
Log4net
Git
Mdx
Ssrs 2008
Backbone.js
Wxpython
Drupal
Puppet
Karate
Enums
Liferay
Sql Server 2012
Datatables
Lisp
Ember.js
Api
Sitecore
Cassandra
Optimization
Weblogic
Debugging
Methods
Assembly
Project Management
Dotnetnuke
Installation
Azure Functions
Button
Class
Localization
Coffeescript
Wix
Validation
Jenkins
Curl
Netsuite
Qml
D3.js
Jakarta Ee
Asp Classic
Path
Linux Kernel
Twilio
Debian
Zurb Foundation
Cloud Foundry
Gatsby
Mqtt
Directory
Asp.net Web Api
Matrix
Udp
Lucene
Process
Firefox
Three.js
Testing
Teamcity
Gwt
Migration
Serial Port
Geolocation
Aem
D
Phpunit
Django Rest Framework
Uitableview
Gradle
Asp.net Mvc 3
Ansible
Qt4
Amazon Web Services
Sml
Asterisk
Entity Framework 4
Web Services
Bazel
Stanford Nlp
Symfony
Jsf 2
Directx
Rspec
Redis
Sonarqube
Latex
Sip
Cakephp
Java
Soap
Xsd
Blackberry
Jqgrid
Cobol
Mule
Internet Explorer
Plugins
Shiny
Asp.net Mvc 2
Pointers
Orchardcms
Struct
Testng
Objective C
Firebase
Fluent Nhibernate
Scroll
Mod Rewrite
Robotframework
Floating Point
Mysql
Vbscript
Asp.net Core Mvc
Timer
Cocoa
.net 4.0
Kernel
Google Maps
Matplotlib
Eclipse Plugin
Java 8
If Statement
Io
Axapta
Mono
Nginx
Model


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网