Python PySpark任务大小_Python_Apache Spark_Pyspark_Cluster Computing

Python PySpark任务大小

python apache-spark pyspark cluster-computing

Python PySpark任务大小,python,apache-spark,pyspark,cluster-computing,Python,Apache Spark,Pyspark,Cluster Computing,我目前在2.4.5版上有一个由1个驱动程序和2个工作程序组成的Spark群集我想进一步优化并行性，以便在加载和处理数据时获得更好的吞吐量，在这样做时，我经常在控制台上收到以下消息： WARN scheduler.TaskSetManager: Stage contains a task of very large size (728 KB). The maximum recommended task size is 100 KB. 这是怎么回事？我对Spark技术相当陌生，但了解它的基础知识

我目前在2.4.5版上有一个由1个驱动程序和2个工作程序组成的Spark群集

我想进一步优化并行性，以便在加载和处理数据时获得更好的吞吐量，在这样做时，我经常在控制台上收到以下消息：

WARN scheduler.TaskSetManager: Stage contains a task of very large size (728 KB). The maximum recommended task size is 100 KB.

这是怎么回事？我对Spark技术相当陌生，但了解它的基础知识，我想知道如何对此进行优化，但我不确定它是否涉及配置从机以拥有更多执行器，并以这种方式获得更多并行性，或者是否需要使用合并或重分片函数对数据帧进行分区

提前谢谢你们

这里的一般要点是，您需要重新分区以获得更多但更小的分区，从而获得更多的并行性和更高的吞吐量。728k是与舞台相关的任意数字。当我刚开始使用Scala和Spark时，我有时也会这样

我看不到你的代码，所以我把它留在这里。但谷歌在这里搜索也表明缺乏并行性。老实说，这是人所共知的。

老实说，没有太多代码，我只是想了解一下大致情况。我所做的就是读取一个带有sparkContext的拼花文件，然后开始处理它以获取信息。如何在这个数据帧上进行更多的分区，或者如何在我的工作从属上获得更多的执行器？重新分区还是合并。这是一个非常普遍的问题。