Matlab 使用CUDA推力库进行大数值计算 我想实现一个推力非常大的循环,但是我发现它比普通C++代码慢得多。你能告诉我哪里出了问题吗。 fi和fj是宿主向量
xsize通常是一个7-8位数的数字Matlab 使用CUDA推力库进行大数值计算 我想实现一个推力非常大的循环,但是我发现它比普通C++代码慢得多。你能告诉我哪里出了问题吗。 fi和fj是宿主向量,matlab,thrust,Matlab,Thrust,xsize通常是一个7-8位数的数字 thrust::host_vector <double> df((2*floor(r)*(floor(r)+1)+1)*n*n); thrust::device_vector<double> gpu_df((2*floor(r)*(floor(r)+1)+1)*n*n); for(i=0;i<xsize;i++) { gpu_df[i]=(fi[i]-fj[i]); i
thrust::host_vector <double> df((2*floor(r)*(floor(r)+1)+1)*n*n);
thrust::device_vector<double> gpu_df((2*floor(r)*(floor(r)+1)+1)*n*n);
for(i=0;i<xsize;i++)
{
gpu_df[i]=(fi[i]-fj[i]);
if(gpu_df[i]<0)
gpu_df[i]=0;
else
gpu_df[i]=gpu_df[i]*(fi[i]-fj[i]);
if(gpu_df[i]>255)
gpu_df[i]=255;
// cout<<fi[i]<<"\n";
}
df=gpu_df;
推力:主矢量df((2*楼层(r)*(楼层(r)+1)+1)*n*n);
推力:设备矢量gpu df((2*楼层(r)*(楼层(r)+1)+1)*n*n);
对于(i=0;i要在GPU上以推力运行程序,您需要根据推力算法编写程序,如
reduce
,transform
,sort
,等等。在这种情况下,我们可以根据transform
编写计算,因为循环只是计算函数F(fi[i],fj[i])
并将结果存储在df[i]
中。请注意,在调用transform
之前,我们必须首先将输入数组移动到设备上,因为推力要求输入和输出数组位于同一位置
#include <thrust/host_vector.h>
#include <thrust/device_vector.h>
#include <thrust/functional.h>
#include <cstdio>
struct my_functor
: public thrust::binary_function<float,float,float>
{
__host__ __device__
float operator()(float fi, float fj)
{
float d = fi - fj;
if (d < 0)
d = 0;
else
d = d * d;
if (d > 255)
d = 255;
return d;
}
};
int main(void)
{
size_t N = 5;
// allocate storage on host
thrust::host_vector<float> cpu_fi(N);
thrust::host_vector<float> cpu_fj(N);
thrust::host_vector<float> cpu_df(N);
// initialze fi and fj arrays
cpu_fi[0] = 2.0; cpu_fj[0] = 0.0;
cpu_fi[1] = 0.0; cpu_fj[1] = 2.0;
cpu_fi[2] = 3.0; cpu_fj[2] = 1.0;
cpu_fi[3] = 4.0; cpu_fj[3] = 5.0;
cpu_fi[4] = 8.0; cpu_fj[4] = -8.0;
// copy fi and fj to device
thrust::device_vector<float> gpu_fi = cpu_fi;
thrust::device_vector<float> gpu_fj = cpu_fj;
// allocate storage for df
thrust::device_vector<float> gpu_df(N);
// perform transformation
thrust::transform(gpu_fi.begin(), gpu_fi.end(), // first input range
gpu_fj.begin(), // second input range
gpu_df.begin(), // output range
my_functor()); // functor to apply
// copy results back to host
thrust::copy(gpu_df.begin(), gpu_df.end(), cpu_df.begin());
// print results on host
for (size_t i = 0; i < N; i++)
printf("f(%2.0lf,%2.0lf) = %3.0lf\n", cpu_fi[i], cpu_fj[i], cpu_df[i]);
return 0;
}
谢谢wnbell。二维向量也可以吗?我想要像xi[I][0]-xj[I][0]这样的东西,那么它会像xi[0]-xj[0]?推力只提供一个一维向量容器,因此您必须决定如何将二维向量展平为一维向量。假设您以相同的方式展平所有二维向量,则在调用
transform
等算法时,通常可以忽略数据的二维性质。
f( 2, 0) = 4
f( 0, 2) = 0
f( 3, 1) = 4
f( 4, 5) = 0
f( 8,-8) = 255