C++ 为什么多线程速度较慢？_C++_C_Multithreading

C++ 为什么多线程速度较慢？

c++ c multithreading

C++ 为什么多线程速度较慢？,c++,c,multithreading,C++,C,Multithreading,所以我正试图写一个程序来寻找素数。该项目的真正目的只是学习多线程。首先，我编写了一个单线程程序，它在一分钟内找到13633943。我的多线程版本只有10025627 这是我的单线程程序代码 #include <iostream> using namespace std; bool isprime(long num) { long lim = num/2; if(num == 1) { return 0; } for(long

所以我正试图写一个程序来寻找素数。该项目的真正目的只是学习多线程。首先，我编写了一个单线程程序，它在一分钟内找到13633943。我的多线程版本只有10025627

这是我的单线程程序代码

#include <iostream>

using namespace std;

bool isprime(long num)
{
    long lim = num/2;
    if(num == 1)
    {
        return 0;
    }
    for(long i = 2; i <= lim; i++)
    {
        if (num % i == 0)
        {
            return 0;
        }
        else{ lim = num/i; }
    }
    return 1;
}

int main()
{
    long lim;
    cout << "How many numbers should I test: ";
    cin >> lim;
    for(long i = 1; i <= lim || lim == 0; i++)
    {
        if(isprime(i))
        {
            cout << i << endl;
        }
    }
}

#包括
使用名称空间std；
bool isprime（长数值）
{
长lim=num/2；
如果（num==1）
{
返回0；
}
对于（长i=2；i lim；
对于（long i=1；i我相当肯定cout
扮演着一个共享资源的角色——即使它确实正确地按正确的顺序打印每个数字，它也会大大降低速度
我也做过类似的事情（它更灵活，使用原子操作“选择下一个数字”），在我的四核机器上几乎快了4倍。但这只是在我不打印任何东西的情况下。如果它打印到控制台上，速度会慢得多，因为很多时间都是用来洗牌像素而不是实际计算的
注释掉cout这取决于操作系统给你的代码分配了多少CPU来运行。这些线程中的每一个都是CPU限制的，所以如果你只有一个CPU，它将运行一个线程一段时间，时间片，运行下一个线程，等等，这不会更快，也可能会更慢，这取决于线程的开销至少在solaris上，告诉它您希望所有线程同时运行是值得的
我没有遇到过像另一张海报所建议的那样将输出序列化的实现
235 iisi s  ppprririimmme
ee

因此，您的输出很可能表明O/S没有为您分配多个线程
您可能遇到的另一个问题是，与输出到文件相比，输出到控制台的速度非常慢。将程序的输出发送到一个文件，看看它的速度有多快可能是值得的。
我相信Oli Charlesworth在超读问题上击中了它的头部。我认为超读实际上就像hav使用两个内核。事实并非如此。我将它改为只使用两个线程，我得到了2227421个线程，速度几乎是原来的两倍。
而@matstpeterson是正确的（至少对于基于POSIX的系统，stdout
是一个共享资源），他没有提供解决该问题的方法，所以下面介绍如何消除这些讨厌的锁
POSIX C定义了一个函数，putc\u unlocked
，该函数将执行与putc
完全相同的操作，但没有锁定（出乎意料）。使用该函数，我们可以定义自己的函数，该函数将不锁定地打印整数，并且在多线程场景中比cout
或printf
更快：
void printint_unlocked(FILE *fptr, int i) {
    static int digits[] = {
        1,
        10,
        100,
        1000,
        10000,
        100000,
        1000000,
        10000000,
        100000000,
        1000000000,
    };

    if (i < 0) {
        putc_unlocked('-', fptr);
        i = -i;
    }

    int ndigits = (int) log10(i);
    while (ndigits >= 0) {
        int digit = (i / (digits[ndigits])) % 10;

        putc_unlocked('0' + digit, fptr);

        --ndigits;
    }
}

void printint\u解锁（文件*fptr，int i）{
静态整数位数[]={
1.
10,
100,
1000,
10000,
100000,
1000000,
10000000,
100000000,
1000000000,
};
if（i<0）{
putc_解锁（'-'，fptr）；
i=-i；
}
int ndigits=（int）log10（i）；
而（ndigits>=0）{
整数位数=（i/（位数[ndigit]）%10；
putc_解锁（'0'+位，fptr）；
--NDIGIT；
}
}

请注意，此方法完全可能存在竞争条件，从而导致输出中的数字发生冲突。如果您的算法最终没有任何冲突，则您仍应获得多线程代码的性能提升
第三个也是最后一个选项（可能对您的用例来说太复杂了）就是在另一个线程上创建一个事件队列，并从该线程执行所有打印操作，从而不会产生争用条件，线程之间也不会出现锁定问题。
我认为当前的许多问题是，您正在参与真正可以操作多线程（查找素数）的工作，并将其隐藏在噪音中（将输出写入控制台的时间）
为了了解这有多大的影响，我重写了一点main，将打印素数与查找素数分开。为了更方便地计时，我还让它从命令行中接受限制，而不是以交互方式，如下所示：
int main(int argc, char **argv) {
    if (argc != 2) {
        std::cerr << "Usage: bad_prime <limit:long>\n";
        return 1;
    }
    std::vector<unsigned long> primes;

    unsigned long lim = atol(argv[1]);

    clock_t start = clock();

    for(unsigned long i = 1; i <= lim; i++)
        if(isprime(i))
            primes.push_back(i);
    clock_t stop = clock();

    for (auto a : primes)
        std::cout << a << "\t";

    std::err << "\nTime to find primes: " << double(stop-start)/CLOCKS_PER_SEC << "\n";
}

因此——大约半秒找到素数，47秒以上打印它们。假设我们的目的真的是将输出写入控制台，我们不妨到此为止。即使多线程可以完全消除查找素数的时间，我们仍然只需将最终时间从~48.2秒改为~47.6秒——unl我认为这是值得的
因此，就目前而言，我假设真正的目的是将输出写入类似于文件的内容。由于使代码多线程化似乎毫无意义，但在每个线程中运行效率极低的代码，因此我认为我应该优化（或至少消除悲观情绪）单线程代码作为起点
首先，我删除了endl
，并将其替换为“\n”
。当输出指向一个文件时，这将运行时间从0.968秒减少到0.678秒--endl
除了写入换行符外，还会刷新缓冲区，而缓冲区刷新大约占整个程序所用时间的三分之一
在同样的基础上，我冒昧地将您的isprime
改写为至少效率稍低一点的内容：
bool isprime(unsigned long num) {
    if (num == 2)
        return true;

    if(num == 1 || num % 2 == 0)
        return false;

    unsigned long lim = sqrt(num);

    for(unsigned long i = 3; i <= lim; i+=2)
        if (num % i == 0)
            return false;

    return true;
}

在与以前相同的机器上运行（相当旧的双核处理器），我得到：
这似乎可以很好地扩展。如果我们从多核计算中获得的只是多核计算，那么我们希望看到找到素数除以2的时间（我在双核处理器上运行此操作），并且将数据写入磁盘的时间保持不变（多线程不会加快我的硬盘速度）.基于此，完美缩放应该给我们0.59/2+0.1=0.40秒
（无可否认）我们看到的微小改进是b
void printint_unlocked(FILE *fptr, int i) {
    static int digits[] = {
        1,
        10,
        100,
        1000,
        10000,
        100000,
        1000000,
        10000000,
        100000000,
        1000000000,
    };

    if (i < 0) {
        putc_unlocked('-', fptr);
        i = -i;
    }

    int ndigits = (int) log10(i);
    while (ndigits >= 0) {
        int digit = (i / (digits[ndigits])) % 10;

        putc_unlocked('0' + digit, fptr);

        --ndigits;
    }
}

int main(int argc, char **argv) {
    if (argc != 2) {
        std::cerr << "Usage: bad_prime <limit:long>\n";
        return 1;
    }
    std::vector<unsigned long> primes;

    unsigned long lim = atol(argv[1]);

    clock_t start = clock();

    for(unsigned long i = 1; i <= lim; i++)
        if(isprime(i))
            primes.push_back(i);
    clock_t stop = clock();

    for (auto a : primes)
        std::cout << a << "\t";

    std::err << "\nTime to find primes: " << double(stop-start)/CLOCKS_PER_SEC << "\n";
}

Time to find primes: 0.588


Real    48.206
User    1.68481
Sys     3.40082

bool isprime(unsigned long num) {
    if (num == 2)
        return true;

    if(num == 1 || num % 2 == 0)
        return false;

    unsigned long lim = sqrt(num);

    for(unsigned long i = 3; i <= lim; i+=2)
        if (num % i == 0)
            return false;

    return true;
}

#include <iostream>
#include <vector>
#include <time.h>
#include <math.h>
#include <thread>

using namespace std;

bool isprime(unsigned long num) {
    // same as above
}

typedef unsigned long UL;

struct params { 
    unsigned long lower_lim;
    unsigned long upper_lim;
    std::vector<unsigned long> results;

    params(UL l, UL u) : lower_lim(l), upper_lim(u) {}
};

long thread_func(params *p) { 
    for (unsigned long i=p->lower_lim; i<p->upper_lim; i++)
        if (isprime(i))
            p->results.push_back(i);
    return 0;
}

int main(int argc, char **argv) {
    if (argc != 2) {
        std::cerr << "Usage: bad_prime <limit:long>\n";
        return 1;
    }

    unsigned long lim = atol(argv[1]);

    params p[] = {
        params(1, lim/4),
        params(lim/4, lim/2),
        params(lim/2, 3*lim/4),
        params(3*lim/4, lim)
    };

    std::thread threads[] = {
        std::thread(thread_func, p), 
        std::thread(thread_func, p+1),
        std::thread(thread_func, p+2),
        std::thread(thread_func, p+3)
    };

    for (int i=0; i<4; i++) {
        threads[i].join();
        for (UL p : p[i].results)
            std::cout << p << "\n";
    }
}

Real    0.35
User    0.639604
Sys     0