Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python PySpark任务大小_Python_Apache Spark_Pyspark_Cluster Computing - Fatal编程技术网

Python PySpark任务大小

Python PySpark任务大小,python,apache-spark,pyspark,cluster-computing,Python,Apache Spark,Pyspark,Cluster Computing,我目前在2.4.5版上有一个由1个驱动程序和2个工作程序组成的Spark群集 我想进一步优化并行性,以便在加载和处理数据时获得更好的吞吐量,在这样做时,我经常在控制台上收到以下消息: WARN scheduler.TaskSetManager: Stage contains a task of very large size (728 KB). The maximum recommended task size is 100 KB. 这是怎么回事?我对Spark技术相当陌生,但了解它的基础知识

我目前在2.4.5版上有一个由1个驱动程序和2个工作程序组成的Spark群集

我想进一步优化并行性,以便在加载和处理数据时获得更好的吞吐量,在这样做时,我经常在控制台上收到以下消息:

WARN scheduler.TaskSetManager: Stage contains a task of very large size (728 KB). The maximum recommended task size is 100 KB.
这是怎么回事?我对Spark技术相当陌生,但了解它的基础知识,我想知道如何对此进行优化,但我不确定它是否涉及配置从机以拥有更多执行器,并以这种方式获得更多并行性,或者是否需要使用合并或重分片函数对数据帧进行分区


提前谢谢你们

这里的一般要点是,您需要重新分区以获得更多但更小的分区,从而获得更多的并行性和更高的吞吐量。728k是与舞台相关的任意数字。当我刚开始使用Scala和Spark时,我有时也会这样


我看不到你的代码,所以我把它留在这里。但谷歌在这里搜索也表明缺乏并行性。老实说,这是人所共知的。

老实说,没有太多代码,我只是想了解一下大致情况。我所做的就是读取一个带有sparkContext的拼花文件,然后开始处理它以获取信息。如何在这个数据帧上进行更多的分区,或者如何在我的工作从属上获得更多的执行器?重新分区还是合并。这是一个非常普遍的问题。