Apache spark 我们应该在dataframe上使用groupBy还是reduceBy

Apache spark 我们应该在dataframe上使用groupBy还是reduceBy,apache-spark,group-by,spark-dataframe,Apache Spark,Group By,Spark Dataframe,而groupBy则使用apachespark中的数据帧,稍后使用与数据帧中另一列的聚合。是否存在任何性能问题?reduceBy是否是更好的选择 df.groupBy("primaryKey").agg(max("another column")) 在groupBy中,reduce作业将按顺序执行,但在reduceByKey中,内部spark并行运行多个reduce作业,因为它知道key并针对key运行reduce。ReduceByKey提供了比groupBy更好的性能。 您可以在两者上运行聚合

groupBy
则使用apachespark中的数据帧,稍后使用与数据帧中另一列的聚合。是否存在任何性能问题?
reduceBy
是否是更好的选择

df.groupBy("primaryKey").agg(max("another column"))

在groupBy中,reduce作业将按顺序执行,但在reduceByKey中,内部spark并行运行多个reduce作业,因为它知道key并针对key运行reduce。ReduceByKey提供了比groupBy更好的性能。
您可以在两者上运行聚合。

我认为您混淆了RDD函数
groupByKey
和数据帧
groupBy
,它们完全不同。dataframe
groupBy
将首先在本地聚合。不,这个问题显然不是“dataframe/Dataset groupBy Behavior/optimization”的重复,应该重新打开。它不是重复的。