卡夫特的问题 我用Cufft编写了C++和CUDA中的一个学校作业的频率过滤应用程序,我不能让它工作。您可以找到整个VisualStudio2010解决方案。(需要)
以下是我认为相关的部分:(fourierUtils.cu/194)卡夫特的问题 我用Cufft编写了C++和CUDA中的一个学校作业的频率过滤应用程序,我不能让它工作。您可以找到整个VisualStudio2010解决方案。(需要),c++,cuda,fft,cufft,C++,Cuda,Fft,Cufft,以下是我认为相关的部分:(fourierUtils.cu/194) ////////////////////////////////////////////////////////////////////////////// //函数来帮助调用内核,创建参数并获取 //结果 __主人__ 空洞过程( BitmapStruct&in_img,//它们包含rgba字节数组中的图像 BitmapStruct和out\u img, MaskGenerator MaskGenerator,//这是指向设备
//////////////////////////////////////////////////////////////////////////////
//函数来帮助调用内核,创建参数并获取
//结果
__主人__
空洞过程(
BitmapStruct&in_img,//它们包含rgba字节数组中的图像
BitmapStruct和out\u img,
MaskGenerator MaskGenerator,//这是指向设备函数的指针
float param1,//掩码参数
浮动参数(2)
{
//声明和分配变量
卡夫坦德尔计划;
cufftReal*img;
cufftReal*开发人员;
袖口复合体*dev_freq_img;
int imgsize=in_img.image_size();
int pixelcount=imgsize/4;
img=新浮点[像素计数];
检查结果(
Cudamaloc(&dev_img,sizeof(袖带)*像素计数);
检查结果(
Cudamaloc(&dev_freq_img,sizeof(袖套复合体)*像素计数);
//优化执行
cudafuncs;
检查结果(
cudaFuncGetAttributes(&attrs,&Filter));
std::pair参数
=优化器::获取最佳参数(像素计数、属性);
//过程r、g、b通道
对于(int chan=0;chan我还没有编译并运行您的简化版本,但我认为问题在于dev\u img
和dev\u freq\u imag
的大小
考虑《CUFFT Library用户指南》第4.2节中的示例。它执行就地实到复变换,这与您首先执行的步骤相同
#define NX 256
cufftHandle plan;
cufftComplex *data;
cudaMalloc((void**)&data, sizeof(cufftComplex)*(NX/2+1)*BATCH);
cufftPlan1d(&plan, NX, CUFFT_R2C, BATCH);
cufftExecR2C(plan, (cufftReal*)data, data);
由于变换的对称特性,nciptexecr2c
仅填充NX/2+1
输出元素,其中NX
是输入数组的大小
在您的情况下,您正在执行以下操作:
cufftHandle plan;
cufftReal* dev_img;
cufftComplex* dev_freq_img;
cudaMalloc(&dev_img, sizeof(cufftReal) * pixelcount);
cudaMalloc(&dev_freq_img, sizeof(cufftComplex) * pixelcount);
因此,您正在分配一个大小相同的cufftReal
数组和cufftComplex
数组
cufftPlan1d(&plan, pixelcount, CUFFT_R2C, 1);
cufftExecR2C(plan, dev_img, dev_freq_img);
然后,只有一半的dev\u freq\u img
被cufftExecR2C
填充,剩下的部分包含垃圾。如果你在过滤器中使用dev\u freq\u img
的全部dev\u freq\u img
函数,那么这可能就是你的NaN
s的原因。我还没有编译并运行你的代码减少了版本,但我认为问题在于dev\u img
和dev\u freq\u imag
的大小
考虑《CUFFT Library用户指南》第4.2节中的示例。它执行就地实到复变换,这与您首先执行的步骤相同
#define NX 256
cufftHandle plan;
cufftComplex *data;
cudaMalloc((void**)&data, sizeof(cufftComplex)*(NX/2+1)*BATCH);
cufftPlan1d(&plan, NX, CUFFT_R2C, BATCH);
cufftExecR2C(plan, (cufftReal*)data, data);
由于变换的对称特性,nciptexecr2c
仅填充NX/2+1
输出元素,其中NX
是输入数组的大小
在您的情况下,您正在执行以下操作:
cufftHandle plan;
cufftReal* dev_img;
cufftComplex* dev_freq_img;
cudaMalloc(&dev_img, sizeof(cufftReal) * pixelcount);
cudaMalloc(&dev_freq_img, sizeof(cufftComplex) * pixelcount);
因此,您正在分配一个大小相同的cufftReal
数组和cufftComplex
数组
cufftPlan1d(&plan, pixelcount, CUFFT_R2C, 1);
cufftExecR2C(plan, dev_img, dev_freq_img);
然后,只有一半的dev\u freq\u img
被cufftExecR2C
填充,剩下的部分包含垃圾。如果你在过滤器中使用dev\u freq\u img
的全部dev\u freq\u img
函数,那么这可能就是你的NaN
s的原因。我还没有编译并运行你的代码减少了版本,但我认为问题在于dev\u img
和dev\u freq\u imag
的大小
考虑《CUFFT Library用户指南》第4.2节中的示例。它执行就地实到复变换,这与您首先执行的步骤相同
#define NX 256
cufftHandle plan;
cufftComplex *data;
cudaMalloc((void**)&data, sizeof(cufftComplex)*(NX/2+1)*BATCH);
cufftPlan1d(&plan, NX, CUFFT_R2C, BATCH);
cufftExecR2C(plan, (cufftReal*)data, data);
由于变换的对称特性,nciptexecr2c
仅填充NX/2+1
输出元素,其中NX
是输入数组的大小
在您的情况下,您正在执行以下操作:
cufftHandle plan;
cufftReal* dev_img;
cufftComplex* dev_freq_img;
cudaMalloc(&dev_img, sizeof(cufftReal) * pixelcount);
cudaMalloc(&dev_freq_img, sizeof(cufftComplex) * pixelcount);
因此,您正在分配一个大小相同的cufftReal
数组和cufftComplex
数组
cufftPlan1d(&plan, pixelcount, CUFFT_R2C, 1);
cufftExecR2C(plan, dev_img, dev_freq_img);
然后,只有一半的dev\u freq\u img
被cufftExecR2C
填充,剩下的部分包含垃圾。如果你在过滤器中使用dev\u freq\u img
的全部dev\u freq\u img
函数,那么这可能就是你的NaN
s的原因。我还没有编译并运行你的代码减少了版本,但我认为问题在于dev\u img
和dev\u freq\u imag
的大小
考虑《CUFFT Library用户指南》第4.2节中的示例。它执行就地实到复变换,这与您首先执行的步骤相同
#define NX 256
cufftHandle plan;
cufftComplex *data;
cudaMalloc((void**)&data, sizeof(cufftComplex)*(NX/2+1)*BATCH);
cufftPlan1d(&plan, NX, CUFFT_R2C, BATCH);
cufftExecR2C(plan, (cufftReal*)data, data);
由于变换的对称特性,nciptexecr2c
仅填充NX/2+1
输出元素,其中NX
是输入数组的大小
在您的情况下,您正在执行以下操作:
cufftHandle plan;
cufftReal* dev_img;
cufftComplex* dev_freq_img;
cudaMalloc(&dev_img, sizeof(cufftReal) * pixelcount);
cudaMalloc(&dev_freq_img, sizeof(cufftComplex) * pixelcount);
因此,您正在分配一个大小相同的cufftReal
数组和cufftComplex
数组
cufftPlan1d(&plan, pixelcount, CUFFT_R2C, 1);
cufftExecR2C(plan, dev_img, dev_freq_img);
然后,只有一半的dev\u freq\u img
被cufftExecR2C
填充,剩下的部分包含垃圾。如果你在过滤器\u全局
函数中使用了dev\u freq\u img
的全部,那么这可能就是你的NaN
的原因。我的错误是忘记了在一些cudaMemcpy
调用中,根据项目的大小对项目的数量进行叠加,因此馈送到cuFFT的向量的末端由NaN组成。修复这些问题解决了问题
我还将cufftReal数组替换为cufftComplex数组,因为C2C转换似乎更可预测,并且增加了值的规范化
因此,最终的工作方法是:
///////////////////////////////////////////////////////////////////////////////
// Function to help invoking the kernel, creates the parameters and gets
// the result
__host__
void Process(
BitmapStruct& in_img,
BitmapStruct& out_img,
MaskGenerator maskGenerator,
float param1,
float param2)
{
// Declare and allocate variables
cufftHandle plan;
cufftComplex* img;
cufftComplex* dev_img;
cufftComplex* dev_freq_img;
int imgsize = in_img.image_size();
int pixelcount = imgsize / 4;
img = new cufftComplex[pixelcount];
checkResult(
cudaMalloc(&dev_img, sizeof(cufftComplex) * pixelcount));
checkResult(
cudaMalloc(&dev_freq_img, sizeof(cufftComplex) * pixelcount));
// Optimize execution
cudaFuncAttributes attrs;
checkResult(
cudaFuncGetAttributes(&attrs, &Filter));
std::pair<dim3, dim3> params =
Optimizer::GetOptimalParameters(pixelcount, attrs);
// Process r, g, b channels
for(int chan = 0; chan <= 2; chan++)
{
// Init
for(int i = 0; i < pixelcount; i++)
{
img[i].x = in_img.pixels[4 * i + chan];
img[i].y = 0;
}
checkResult(
cudaMemcpy(
dev_img,
img,
pixelcount * sizeof(cufftComplex),
cudaMemcpyHostToDevice));
// Create frequency image
checkResult(
cufftPlan1d(&plan, pixelcount, CUFFT_C2C, 1));
checkResult(
cufftExecC2C(plan, dev_img, dev_freq_img, CUFFT_FORWARD));
checkResult(
cudaThreadSynchronize());
checkResult(
cufftDestroy(plan));
// Mask frequency image
Filter<<<params.first, params.second>>>(
dev_freq_img,
in_img.x,
in_img.y,
maskGenerator,
param1,
param2);
getLastCudaError("Filtering the image failed.");
// Get result
checkResult(
cufftPlan1d(&plan, pixelcount, CUFFT_C2C, 1));
checkResult(
cufftExecC2C(plan, dev_freq_img, dev_img, CUFFT_INVERSE));
checkResult(
cudaThreadSynchronize());
checkResult(
cufftDestroy(plan));
checkResult(
cudaMemcpy(
img,
dev_img,
pixelcount * sizeof(cufftComplex),
cudaMemcpyDeviceToHost));
for(int i = 0; i < pixelcount; i++)
{
out_img.pixels[4 * i + chan] = img[i].x / pixelcount;
}
}
// Copy alpha channel
for(int i = 0; i < pixelcount; i++)
{
out_img.pixels[4 * i + 3] = in_img.pixels[4 * i + 3];
}
// Free memory
checkResult(
cudaFree(dev_freq_img));
checkResult(
cudaFree(dev_img));
delete img;
getLastCudaError("An error occured during processing the image.");
}
///////////////////////////////////////////////////////////////////////////////
//函数来帮助调用内核