Apache spark 跨工作节点分发collect_list函数

Apache spark 跨工作节点分发collect_list函数,apache-spark,pyspark,apache-spark-sql,collect,Apache Spark,Pyspark,Apache Spark Sql,Collect,我正在pyspark中使用以下代码执行聚合数组收集: df1=df.groupBy('key').agg(collect_list('value')) 我知道一些函数,比如将数据收集到单个节点中。在利用分布式云计算能力的同时,是否有可能实现同样的结果?这里似乎存在一些误解 collect强制通过驱动程序收集数据,而不是分发数据 鉴于 默认情况下,collect\u list和collect\u set是分布式操作。但是当我执行它时,我看到Gangila中只有一个节点的负载在增加

我正在pyspark中使用以下代码执行聚合数组收集:

df1=df.groupBy('key').agg(collect_list('value'))

我知道一些函数,比如将数据收集到单个节点中。在利用分布式云计算能力的同时,是否有可能实现同样的结果?

这里似乎存在一些误解

collect
强制通过驱动程序收集数据,而不是分发数据

鉴于


默认情况下,
collect\u list
collect\u set
是分布式操作。

但是当我执行它时,我看到Gangila中只有一个节点的负载在增加