Apache spark Spark pivot groupby性能非常慢_Apache Spark_Dataframe_Group By_Pivot

Apache spark Spark pivot groupby性能非常慢

apache-spark dataframe

Apache spark Spark pivot groupby性能非常慢,apache-spark,dataframe,group-by,pivot,Apache Spark,Dataframe,Group By,Pivot,我正在尝试旋转原始数据大小为6 GB的数据帧，它通常需要30分钟的时间（聚合函数sum）：当我首先将聚合函数更改为时开始需要1.5个小时。您能否帮助我了解聚合函数影响性能的原因以及我如何提高性能？要获得最佳性能，请指定透视列的不同值（如果您知道）。否则，将立即启动作业以确定它们像这样,，在as列表中 x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f") .pivot("g",["V1","V2","V3"]) .agg

我正在尝试旋转原始数据大小为6 GB的数据帧，它通常需要30分钟的时间（聚合函数sum）：

当我首先将聚合函数更改为时开始需要1.5个小时。

您能否帮助我了解聚合函数影响性能的原因以及我如何提高性能？

要获得最佳性能，请指定透视列的不同值（如果您知道）。否则，将立即启动作业以确定它们

像这样,，在as列表中

x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
    .pivot("g",["V1","V2","V3"])
    .agg(sum(raw_df("h")
    .cast(DoubleType))
    .alias(""), sum(raw_df("i"))
    .alias("i"))

V1、V2、V3是与“g”列不同的值

有很多小细节需要帮助。检查分区号和随机分区计数，同时检查数据是否正确分布-可能数据中存在偏差感谢您的输入。你能告诉我如何检查数据的偏斜吗？您正在寻找哪些其他信息？查看作业详细信息，每个任务的运行时间应该相似。有时，一项任务需要更多的时间time@GeetaSingh你有没有找到解决办法？我也遇到了同样的问题，没用。

x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
    .pivot("g",["V1","V2","V3"])
    .agg(sum(raw_df("h")
    .cast(DoubleType))
    .alias(""), sum(raw_df("i"))
    .alias("i"))