Apache spark Spark pivot groupby性能非常慢
我正在尝试旋转原始数据大小为6 GB的数据帧,它通常需要30分钟的时间(聚合函数sum): 当我首先将聚合函数更改为时开始需要1.5个小时。Apache spark Spark pivot groupby性能非常慢,apache-spark,dataframe,group-by,pivot,Apache Spark,Dataframe,Group By,Pivot,我正在尝试旋转原始数据大小为6 GB的数据帧,它通常需要30分钟的时间(聚合函数sum): 当我首先将聚合函数更改为时开始需要1.5个小时。 您能否帮助我了解聚合函数影响性能的原因以及我如何提高性能?要获得最佳性能,请指定透视列的不同值(如果您知道)。否则,将立即启动作业以确定它们 像这样,, 在as列表中 x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f") .pivot("g",["V1","V2","V3"]) .agg
您能否帮助我了解聚合函数影响性能的原因以及我如何提高性能?要获得最佳性能,请指定透视列的不同值(如果您知道)。否则,将立即启动作业以确定它们 像这样,, 在as列表中
x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
.pivot("g",["V1","V2","V3"])
.agg(sum(raw_df("h")
.cast(DoubleType))
.alias(""), sum(raw_df("i"))
.alias("i"))
V1、V2、V3是与“g”列不同的值 有很多小细节需要帮助。检查分区号和随机分区计数,同时检查数据是否正确分布-可能数据中存在偏差感谢您的输入。你能告诉我如何检查数据的偏斜吗?您正在寻找哪些其他信息?查看作业详细信息,每个任务的运行时间应该相似。有时,一项任务需要更多的时间time@GeetaSingh你有没有找到解决办法?我也遇到了同样的问题,没用。
x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
.pivot("g",["V1","V2","V3"])
.agg(sum(raw_df("h")
.cast(DoubleType))
.alias(""), sum(raw_df("i"))
.alias("i"))