C++ 生产垃圾
我试图将SSE浮点[4]加法与标准浮点[4]加法进行比较。我试过这个:C++ 生产垃圾,c++,gcc,C++,Gcc,我试图将SSE浮点[4]加法与标准浮点[4]加法进行比较。我试过这个: #include <iostream> #include <vector> struct Point4 { Point4() { data[0] = 0; data[1] = 0; data[2] = 0; data[3] = 0; } float data[4]; }; static float SumOfDifferences(const Po
#include <iostream>
#include <vector>
struct Point4
{
Point4()
{
data[0] = 0;
data[1] = 0;
data[2] = 0;
data[3] = 0;
}
float data[4];
};
static float SumOfDifferences(const Point4& a, const Point4& b)
{
// This function only returns the sum of the sum of the components
float sumValues = 0.0f;
for(unsigned int i = 0; i < 4; ++i)
{
sumValues += a.data[i] + b.data[i];
}
return sumValues;
}
void Standard()
{
Point4 a;
a.data[0] = 1;
a.data[1] = 2;
a.data[2] = 3;
a.data[3] = 4;
Point4 b;
b.data[0] = 1;
b.data[1] = 6;
b.data[2] = 3;
b.data[3] = 5;
float total = 0.0f;
for(unsigned int i = 0; i < 1e6; ++i)
{
total += SumOfDifferences(a, b);
}
std::cout << "total: " << total << std::endl;
}
void Vectorized()
{
typedef int v4sf __attribute__ (( vector_size(4*sizeof(float)) ));
v4sf a;
float* aPointer = (float*)&a;
aPointer[0] = 1; aPointer[1] = 2; aPointer[2] = 3; aPointer[3] = 4;
v4sf b;
float* bPointer = (float*)&b;
bPointer[0] = 1; bPointer[1] = 2; bPointer[2] = 3; bPointer[3] = 4;
float total = 0.0f;
v4sf result;
float* resultPointer = (float*)&result;
for(unsigned int i = 0; i < 1e6; ++i)
{
result = a + b; // Vectorized operation
// Sum the components of the result (this is done with the "total += " in the Standard() loop
for(unsigned int component = 0; component < 4; ++component)
{
total += resultPointer[component];
}
}
std::cout << "total: " << total << std::endl;
}
int main()
{
// Standard();
Vectorized();
return 0;
}
#包括
#包括
结构点4
{
第4点()
{
数据[0]=0;
数据[1]=0;
数据[2]=0;
数据[3]=0;
}
浮动数据[4];
};
静态浮点差值总和(常数点4&a、常数点4&b)
{
//此函数仅返回组件和的和
浮点数=0.0f;
for(无符号整数i=0;i<4;++i)
{
sumValues+=a.数据[i]+b.数据[i];
}
返回值;
}
无效标准()
{
第4点a;
a、 数据[0]=1;
a、 数据[1]=2;
a、 数据[2]=3;
a、 数据[3]=4;
第4点b;
b、 数据[0]=1;
b、 数据[1]=6;
b、 数据[2]=3;
b、 数据[3]=5;
总浮点数=0.0f;
for(无符号整数i=0;i<1e6;++i)
{
总+=差异总和(a,b);
}
std::coutTrytypedef float v4sf\uuuu属性(向量大小(4*sizeof(float)));
结果是2e+07。尝试类型定义浮点v4sf\uuuu属性(向量大小(4*sizeof(float));
结果我得到了2e+07。ahhh太傻了,对不起!但是,使用标准方法的代码(将两个循环更改为1e8迭代后)似乎比使用矢量化方法的代码(约4秒)更快(约2秒)方法。你能解释一下吗?是否值得为此创建一个全新的帖子?或者我可以只更改标题并更正代码,然后问这个时间问题吗?重用旧问题来问新问题可能不被认为是好的做法。你可能应该查阅FAQ,看看它是否说明了这一点。啊,太傻了,抱歉!然而,代码(在将两个循环都更改为1e8迭代之后)使用标准方法似乎比使用矢量化方法(约4秒)更快(约2秒)方法。你能解释一下吗?是否值得为此创建一个全新的帖子?或者我可以更改标题并更正代码,然后问这个时间问题吗?重复使用旧问题来问新问题可能不被认为是好的做法。你可能应该查阅FAQ,看看它是否说明了这一点。