Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark pivot groupby性能非常慢_Apache Spark_Dataframe_Group By_Pivot - Fatal编程技术网

Apache spark Spark pivot groupby性能非常慢

Apache spark Spark pivot groupby性能非常慢,apache-spark,dataframe,group-by,pivot,Apache Spark,Dataframe,Group By,Pivot,我正在尝试旋转原始数据大小为6 GB的数据帧,它通常需要30分钟的时间(聚合函数sum): 当我首先将聚合函数更改为时开始需要1.5个小时。 您能否帮助我了解聚合函数影响性能的原因以及我如何提高性能?要获得最佳性能,请指定透视列的不同值(如果您知道)。否则,将立即启动作业以确定它们 像这样,, 在as列表中 x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f") .pivot("g",["V1","V2","V3"]) .agg

我正在尝试旋转原始数据大小为6 GB的数据帧,它通常需要30分钟的时间(聚合函数sum):

当我首先将聚合函数更改为开始需要1.5个小时。
您能否帮助我了解聚合函数影响性能的原因以及我如何提高性能?

要获得最佳性能,请指定透视列的不同值(如果您知道)。否则,将立即启动作业以确定它们

像这样,, 在as列表中

x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
    .pivot("g",["V1","V2","V3"])
    .agg(sum(raw_df("h")
    .cast(DoubleType))
    .alias(""), sum(raw_df("i"))
    .alias("i"))

V1、V2、V3是与“g”列不同的值

有很多小细节需要帮助。检查分区号和随机分区计数,同时检查数据是否正确分布-可能数据中存在偏差感谢您的输入。你能告诉我如何检查数据的偏斜吗?您正在寻找哪些其他信息?查看作业详细信息,每个任务的运行时间应该相似。有时,一项任务需要更多的时间time@GeetaSingh你有没有找到解决办法?我也遇到了同样的问题,没用。
x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
    .pivot("g",["V1","V2","V3"])
    .agg(sum(raw_df("h")
    .cast(DoubleType))
    .alias(""), sum(raw_df("i"))
    .alias("i"))