Apache spark spark数据帧缓存非常慢

Apache spark spark数据帧缓存非常慢,apache-spark,apache-spark-sql,spark-dataframe,Apache Spark,Apache Spark Sql,Spark Dataframe,在我的代码中,我有一个要缓存的数据帧(df.cache())。它非常慢。我查看了指标,GC时间约为0.2到0.3秒。任务:Successed/Total表示(0/400),内存和计算消耗相当低。有人能指出一些我可以调整的参数来消除这个瓶颈吗 您好,请问您的数据帧的大小(GB/行)?400个分区没有重新分区吗?还有,您有多少执行器,我假设文件/表在HDFS上,那么复制因素是什么?Spark需要重新整理数据,以便使所有执行者都能使用。因此,集群网络/IO上的指标将有助于识别瓶颈。

在我的代码中,我有一个要缓存的数据帧(df.cache())。它非常慢。我查看了指标,GC时间约为0.2到0.3秒。任务:Successed/Total表示(0/400),内存和计算消耗相当低。有人能指出一些我可以调整的参数来消除这个瓶颈吗

您好,请问您的数据帧的大小(GB/行)?400个分区没有重新分区吗?还有,您有多少执行器,我假设文件/表在HDFS上,那么复制因素是什么?Spark需要重新整理数据,以便使所有执行者都能使用。因此,集群网络/IO上的指标将有助于识别瓶颈。