Parallel processing openMP中的并行化_Parallel Processing_Openmp

Parallel processing openMP中的并行化

parallel-processing

Parallel processing openMP中的并行化,parallel-processing,openmp,Parallel Processing,Openmp,我想使用OpenMP并行化以下代码 for(m=0; m<r_c; m++) { for(n=0; n<c_c; n++) { double value = 0.0; for(j=0; j<r_b; j++) for(k=0; k<c_b; k++) { double a; if((m-j)<0 || (n-

我想使用OpenMP并行化以下代码

for(m=0; m<r_c; m++)
{
    for(n=0; n<c_c; n++)
    {
        double value = 0.0;
        for(j=0; j<r_b; j++)
            for(k=0; k<c_b; k++)
            {
                double a;
                if((m-j)<0 || (n-k)<0 || (m-j)>r_a || (n-k)>c_a)
                    a = 0.0;
                else
                    a = h_a[((m-j)*c_a) + (n-k)];
                //printf("%lf\t", a);
                value += h_b[(j*c_b) + k] * a;
            }
        h_c[m*c_c + n] = value;
        //printf("%lf\t", h_c[m*c_c + n]);
    }
    //cout<<"row "<<m<<" completed"<<endl;
}

for（m=0；m根据要并行化的循环，您有三个选项：
#pragma omp parallel
{
#pragma omp for    // Option #1
    for(m=0; m<r_c; m++)
    {
        for(n=0; n<c_c; n++)
        {
            double value = 0.0;
#pragma omp for    // Option #2
            for(j=0; j<r_b; j++)
                for(k=0; k<c_b; k++)
                {
                    double a;
                    if((m-j)<0 || (n-k)<0 || (m-j)>r_a || (n-k)>c_a)
                        a = 0.0;
                    else
                        a = h_a[((m-j)*c_a) + (n-k)];
                    //printf("%lf\t", a);
                    value += h_b[(j*c_b) + k] * a;
                }
                h_c[m*c_c + n] = value;
                //printf("%lf\t", h_c[m*c_c + n]);
        }
        //cout<<"row "<<m<<" completed"<<endl;
    }
}
//////////////////////////////////////////////////////////////////////////
// Option #3
for(m=0; m<r_c; m++)
{
    for(n=0; n<c_c; n++)
    {
#pragma omp parallel
            {
            double value = 0.0;
#pragma omp for
            for(j=0; j<r_b; j++)
                for(k=0; k<c_b; k++)
                {
                    double a;
                    if((m-j)<0 || (n-k)<0 || (m-j)>r_a || (n-k)>c_a)
                        a = 0.0;
                    else
                        a = h_a[((m-j)*c_a) + (n-k)];
                    //printf("%lf\t", a);
                    value += h_b[(j*c_b) + k] * a;
                }
            h_c[m*c_c + n] = value;
            //printf("%lf\t", h_c[m*c_c + n]);
        }
    }
    //cout<<"row "<<m<<" completed"<<endl;
}

#pragma omp并行
{
#选项#1的pragma omp
对于（m=0；mCan你能澄清你得到了什么和你期望得到什么吗？@AviGinsburg这是矩阵2D全卷积的代码，我正在尝试让每个线程并行执行“j”和“k”循环。这样做我得到了正确的结果，但执行时间增加了一倍多。我无法找出问题所在我使用的是第一个选项我正在获取当前输出，但执行时间增加了一倍以上。@ManishKhilnani如果所有结果都相同，则最后一段是关键。如果没有完成足够的工作（或者是内存受限的问题），则那么，并行化不会有任何帮助，甚至可能会造成伤害。关于OMP会影响性能的问题有很多。如果你提出一个问题，我会深入研究。我不想要全部代码，只需要MCVE。只需要一个main（）该公司加载所有数据并开始卷积。这些数据可以合成，这样他们就不必显式加载。int main。'int main。'int main。'int main。'int main。'int main。'int main。'int main。'int main（）{double h't main（{Dole h'u a[9]={1,1,2,2,3,3,4,4,4,4,5,5,5,5,5,6,6,6,6,6,6，6，6，6，6,7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，7，8，8，8，8，8，8，8，8，8，8，8，3，3，3，3，3，3，3，3，3，3，3 k；用于（m=0；mI-am使用#pragma omp parallel for num_线程（4）private（m，n，j，k）在“for m”循环之前折叠（2）
#include <iostream>
#include <chrono>
#include <omp.h>
#include <algorithm>
#include <vector>

#define W_OMP
int main(int argc, char *argv[])
{
    std::vector<double> h_a(9);
    std::generate(h_a.begin(), h_a.end(), std::rand);
    int r_b = 500;
    int c_b = r_b;
    std::vector<double> h_b(r_b * c_b);
    std::generate(h_b.begin(), h_b.end(), std::rand);
    int r_c = 500;
    int c_c = r_c;
    int r_a = 3, c_a = 3;
    std::vector<double> h_c(r_c * c_c);

    auto start = std::chrono::system_clock::now();

#ifdef W_OMP
#pragma omp parallel 
    {
#endif
        int m,n,j,k;
#ifdef W_OMP
#pragma omp for 
#endif
        for(m=0; m<r_c; m++)
        {
            for(n=0; n<c_c; n++)
            {
                double value = 0.0,a;
                for(j=0; j<r_b; j++)
                {
                    for(k=0; k<c_b; k++)
                    {
                        if((m-j)<0 || (n-k)<0 || (m-j)>r_a || (n-k)>c_a)
                            a = 0.0;
                        else a = h_a[((m-j)*c_a) + (n-k)];
                        value += h_b[(j*c_b) + k] * a;
                    }
                }
                h_c[m*c_c + n] = value;
            }
        }
#ifdef W_OMP
    }
#endif
    auto end = std::chrono::system_clock::now();
    auto elapsed = std::chrono::duration_cast<std::chrono::milliseconds>(end - start);
    std::cout << elapsed.count() << "ms"
#ifdef W_OMP
        "\t with OMP"
#else
        "\t without OMP"
#endif
        "\n";

    return 0;

}