Apache spark 跨工作节点分发collect_list函数
我正在pyspark中使用以下代码执行聚合数组收集:Apache spark 跨工作节点分发collect_list函数,apache-spark,pyspark,apache-spark-sql,collect,Apache Spark,Pyspark,Apache Spark Sql,Collect,我正在pyspark中使用以下代码执行聚合数组收集: df1=df.groupBy('key').agg(collect_list('value')) 我知道一些函数,比如将数据收集到单个节点中。在利用分布式云计算能力的同时,是否有可能实现同样的结果?这里似乎存在一些误解 collect强制通过驱动程序收集数据,而不是分发数据 鉴于 默认情况下,collect\u list和collect\u set是分布式操作。但是当我执行它时,我看到Gangila中只有一个节点的负载在增加
df1=df.groupBy('key').agg(collect_list('value'))
我知道一些函数,比如将数据收集到单个节点中。在利用分布式云计算能力的同时,是否有可能实现同样的结果?这里似乎存在一些误解
collect
强制通过驱动程序收集数据,而不是分发数据
鉴于
默认情况下,
collect\u list
和collect\u set
是分布式操作。但是当我执行它时,我看到Gangila中只有一个节点的负载在增加