Apache spark 我们应该在dataframe上使用groupBy还是reduceBy_Apache Spark_Group By_Spark Dataframe

Apache spark 我们应该在dataframe上使用groupBy还是reduceBy

apache-spark

Apache spark 我们应该在dataframe上使用groupBy还是reduceBy,apache-spark,group-by,spark-dataframe,Apache Spark,Group By,Spark Dataframe,而groupBy则使用apachespark中的数据帧，稍后使用与数据帧中另一列的聚合。是否存在任何性能问题？reduceBy是否是更好的选择 df.groupBy("primaryKey").agg(max("another column")) 在groupBy中，reduce作业将按顺序执行，但在reduceByKey中，内部spark并行运行多个reduce作业，因为它知道key并针对key运行reduce。ReduceByKey提供了比groupBy更好的性能。您可以在两者上运行聚合

而

groupBy

则使用apachespark中的数据帧，稍后使用与数据帧中另一列的聚合。是否存在任何性能问题？

reduceBy

是否是更好的选择

df.groupBy("primaryKey").agg(max("another column"))

在groupBy中，reduce作业将按顺序执行，但在reduceByKey中，内部spark并行运行多个reduce作业，因为它知道key并针对key运行reduce。ReduceByKey提供了比groupBy更好的性能。

您可以在两者上运行聚合。

我认为您混淆了RDD函数

groupByKey

和数据帧

groupBy

，它们完全不同。dataframe

groupBy

将首先在本地聚合。不，这个问题显然不是“dataframe/Dataset groupBy Behavior/optimization”的重复，应该重新打开。它不是重复的。