Apache spark 怪异的拼花地板

Apache spark 怪异的拼花地板,apache-spark,pyspark,parquet,Apache Spark,Pyspark,Parquet,我对spark有点陌生。在spark calc完成后,我目前正在向amazon s3发送一些速度非常慢的拼花 编写一个小文件需要1.8小时(编写时有2个分区) 我用不同的大文件运行了相同的spark calc(更多行+更多列)(编写时有3个分区) 写入调用本身:df.write.mode(“覆盖”).parquet(键) 我试着查看SQL计划,它们看起来没有什么不同。即使速度慢是由于文件差异造成的,我也不希望1.5小时 对于我的慢速文件,我取出了拼花地板写入,总计算时间从2.6小时变为1小时

我对spark有点陌生。在spark calc完成后,我目前正在向amazon s3发送一些速度非常慢的拼花

编写一个小文件需要1.8小时(编写时有2个分区)

我用不同的大文件运行了相同的spark calc(更多行+更多列)(编写时有3个分区)

写入调用本身:
df.write.mode(“覆盖”).parquet(键)

我试着查看SQL计划,它们看起来没有什么不同。即使速度慢是由于文件差异造成的,我也不希望1.5小时

对于我的慢速文件,我取出了拼花地板写入,总计算时间从2.6小时变为1小时,所以我不认为它在最后做了懒惰的评估,这导致了它的慢速


你们对调查什么有什么建议吗?我尝试查看历史服务器的DAG和SQL选项卡,但没有看到任何突出的内容遗嘱执行人的身份是一样的。我看到的主要区别是,在编写拼花地板时,较大较快的文件有3个任务,但每个任务处理的行数和字节数都比较小较慢的文件多。

您是否尝试过比较生成的拼花地板文件的元数据?我没有看到任何异常,只是行数和内容。我应该找什么特别的东西吗?列平均值?指标?你们试过比较生成的拼花地板文件的元数据吗?我并没有看到任何异常,只是行大小和其他东西。我应该找什么特别的东西吗?列平均值?韵律学?