Apache spark 跨工作节点分发collect_list函数_Apache Spark_Pyspark_Apache Spark Sql_Collect

Apache spark 跨工作节点分发collect_list函数

apache-spark pyspark

Apache spark 跨工作节点分发collect_list函数,apache-spark,pyspark,apache-spark-sql,collect,Apache Spark,Pyspark,Apache Spark Sql,Collect,我正在pyspark中使用以下代码执行聚合数组收集： df1=df.groupBy('key').agg(collect_list('value')) 我知道一些函数，比如将数据收集到单个节点中。在利用分布式云计算能力的同时，是否有可能实现同样的结果？这里似乎存在一些误解 collect强制通过驱动程序收集数据，而不是分发数据鉴于默认情况下，collect\u list和collect\u set是分布式操作。但是当我执行它时，我看到Gangila中只有一个节点的负载在增加

我正在pyspark中使用以下代码执行聚合数组收集：

df1=df.groupBy('key').agg(collect_list('value'))

我知道一些函数，比如将数据收集到单个节点中。在利用分布式云计算能力的同时，是否有可能实现同样的结果？

这里似乎存在一些误解

collect

强制通过驱动程序收集数据，而不是分发数据

鉴于

默认情况下，

collect\u list

和

collect\u set

是分布式操作。

但是当我执行它时，我看到Gangila中只有一个节点的负载在增加