C++ C++；STL（ExecutionPolicy）算法决定要使用多少并行线程？_C++_Multithreading_Concurrency_Parallel Processing_Stl

C++ C++；STL（ExecutionPolicy）算法决定要使用多少并行线程？

c++ multithreading concurrency parallel-processing

C++ C++；STL（ExecutionPolicy）算法决定要使用多少并行线程？,c++,multithreading,concurrency,parallel-processing,stl,C++,Multithreading,Concurrency,Parallel Processing,Stl,C++17通过使用可选的ExecutionPolicy参数（作为第一个参数），升级了69个STL算法以支持并行性。例如我怀疑C++17标准故意没有提到如何实现多线程算法，而是让库作者决定什么是最好的（并允许他们以后改变主意）。尽管如此，我还是渴望从更高的层次上理解并行STL算法的实现中考虑了哪些问题我想到的一些问题包括（但不限于！）：如何使用（由C++应用程序）与CPU和/或GPU内核上的计算机的数量有关的最大数量？每个算法使用的线程数有什么不同？（在每种情况下，每个算法是否总是使用相

C++17通过使用可选的ExecutionPolicy参数（作为第一个参数），升级了69个STL算法以支持并行性。例如

我怀疑C++17标准故意没有提到如何实现多线程算法，而是让库作者决定什么是最好的（并允许他们以后改变主意）。尽管如此，我还是渴望从更高的层次上理解并行STL算法的实现中考虑了哪些问题

我想到的一些问题包括（但不限于！）：

如何使用（由C++应用程序）与CPU和/或GPU内核上的计算机的数量有关的最大数量？

每个算法使用的线程数有什么不同？（在每种情况下，每个算法是否总是使用相同数量的线程？）

是否考虑了其他线程上的其他并行STL调用（在同一个应用程序中）？（例如，如果一个线程调用std:：for_each（par，…），它是否会使用更多/更少/相同的线程，这取决于std:：sort（par，…）是否已经在其他线程上运行？是否可能存在线程池？）

是否考虑了由于外部因素导致的内核繁忙程度？（例如，如果1内核非常繁忙，比如说SETI信号，C++应用程序会减少它使用的线程数吗？）

有些算法只使用CPU核吗？还是只有GPU内核

我怀疑不同的库（编译器到编译器？）的实现会有所不同，甚至关于这方面的细节都会很有趣

我意识到这些并行算法的目的是让程序员不必担心这些细节。但是，如果有任何信息能让我对图书馆电话中发生的事情有一个高层次的了解，我将不胜感激。

从今天起，这些问题中的大多数都无法得到标准的回答。然而，据我理解，你的问题混合了两个概念：

C1。并行算法的约束条件

C2。算法的执行

所有的C++17并行STL都是关于C1的：它设置了指令和/或线程在并行计算中如何交错/转换的约束。另一方面，C2是关于标准化的，关键字是

executor

（稍后将对此进行详细介绍）

对于C1，有3个标准策略（在

std:：execution:：seq

、

par

和

par_unseq

）对应于任务和指令并行性的每个组合。例如，在执行整数累加时，可以使用par_unseq，因为顺序并不重要。然而，对于浮点运算，加法不是关联的，更好的拟合方法是

seq

，至少可以得到确定的结果。简言之：策略在并行计算上设置约束，智能编译器可能会利用这些约束

另一方面，一旦你有了一个并行算法及其约束条件（可能在一些优化/转换之后），

执行器将找到执行它的方法。有默认的执行器（例如CPU），或者您可以创建自己的，然后，所有关于线程数量、工作负载、处理单元等的配置。。。可以设置
到目前为止，C1在标准中，但不是C2，因此如果您将C1与兼容编译器一起使用，您将无法指定所需的执行概要文件，库实现将为您决定（可能通过扩展）
因此，为了回答您的问题：
（关于前5个问题）根据定义，C++17并行STL库不定义任何计算，只定义数据依赖，以便允许可能的数据流转换。所有这些问题都将由执行人回答（希望如此），您可以看到当前的提案。它将看起来像：
executor = get_executor();
sort( std::execution::par.on(executor), vec.begin(), vec.end());

您的一些问题已经在该提案中定义
（对于第六个）有许多库已经实现了类似的概念（C++executor
确实受到了其中一些概念的启发），AFAIK:hpx、推力或Boost.Compute。我不知道最后两个是如何实际实现的，但对于hpx，它们使用轻量级线程，您可以配置执行配置文件。此外，上述C++17代码的预期（尚未标准化）语法与hpx中的基本相同（深受启发）
参考资料：
布莱斯·阿德尔斯坦·莱尔巴赫
黄敏嘉
黄敏嘉
德特勒夫·沃尔曼
没有任何关于“如何实现多线程算法”的内容，这是真的。实现所有者自行决定如何做到这一点。例如，用作线程后端和矢量化后端。我想，要了解此实现如何与您的机器匹配，您需要阅读特定于实现的文档，尽管您的问题非常有趣，但可能太广泛了。回答您的问题的最佳方法是查看libstdc++和libc++的实现。一个简单的实现使用一个线程池，每个CPU核心一个线程，以及一个任务队列，根据需要将任务提供给线程。
executor = get_executor();
sort( std::execution::par.on(executor), vec.begin(), vec.end());