Apache spark 怪异的拼花地板_Apache Spark_Pyspark_Parquet

Apache spark 怪异的拼花地板

apache-spark pyspark

Apache spark 怪异的拼花地板,apache-spark,pyspark,parquet,Apache Spark,Pyspark,Parquet,我对spark有点陌生。在spark calc完成后，我目前正在向amazon s3发送一些速度非常慢的拼花编写一个小文件需要1.8小时（编写时有2个分区）我用不同的大文件运行了相同的spark calc（更多行+更多列）（编写时有3个分区）写入调用本身：df.write.mode（“覆盖”）.parquet（键）我试着查看SQL计划，它们看起来没有什么不同。即使速度慢是由于文件差异造成的，我也不希望1.5小时对于我的慢速文件，我取出了拼花地板写入，总计算时间从2.6小时变为1小时

我对spark有点陌生。在spark calc完成后，我目前正在向amazon s3发送一些速度非常慢的拼花

编写一个小文件需要1.8小时（编写时有2个分区）

我用不同的大文件运行了相同的spark calc（更多行+更多列）（编写时有3个分区）

写入调用本身：

df.write.mode（“覆盖”）.parquet（键）

我试着查看SQL计划，它们看起来没有什么不同。即使速度慢是由于文件差异造成的，我也不希望1.5小时

对于我的慢速文件，我取出了拼花地板写入，总计算时间从2.6小时变为1小时，所以我不认为它在最后做了懒惰的评估，这导致了它的慢速

你们对调查什么有什么建议吗？我尝试查看历史服务器的DAG和SQL选项卡，但没有看到任何突出的内容遗嘱执行人的身份是一样的。我看到的主要区别是，在编写拼花地板时，较大较快的文件有3个任务，但每个任务处理的行数和字节数都比较小较慢的文件多。

您是否尝试过比较生成的拼花地板文件的元数据？我没有看到任何异常，只是行数和内容。我应该找什么特别的东西吗？列平均值？指标？你们试过比较生成的拼花地板文件的元数据吗？我并没有看到任何异常，只是行大小和其他东西。我应该找什么特别的东西吗？列平均值？韵律学？