Apache spark 是否有一种方法可以估计将spark数据帧写入拼花地板所需的时间?

Apache spark 是否有一种方法可以估计将spark数据帧写入拼花地板所需的时间?,apache-spark,pyspark,parquet,pyspark-dataframes,Apache Spark,Pyspark,Parquet,Pyspark Dataframes,如问题所述,是否有方法估计将spark数据帧写入文件(如拼花地板)所需的时间?我不喜欢无限期地等待,因为我知道我有最好的实例来处理这项任务,而且已经过去了一个多小时 因此,如果有人知道优化这一点的方法,并且/或者能够很好地估计需要多长时间,请在下面发布您的答案。您必须简要介绍您的工作和环境。例如,大查询在查询性能上存在巨大差异。单用户环境还是多用户环境?您使用的是哪种存储器?影响性能的因素很多。单用户环境。我使用的EC2-X1内存经过优化,内存超过1k gb。因此,试着运行完整作业的一个小子集,

如问题所述,是否有方法估计将spark数据帧写入文件(如拼花地板)所需的时间?我不喜欢无限期地等待,因为我知道我有最好的实例来处理这项任务,而且已经过去了一个多小时


因此,如果有人知道优化这一点的方法,并且/或者能够很好地估计需要多长时间,请在下面发布您的答案。

您必须简要介绍您的工作和环境。例如,大查询在查询性能上存在巨大差异。单用户环境还是多用户环境?您使用的是哪种存储器?影响性能的因素很多。单用户环境。我使用的EC2-X1内存经过优化,内存超过1k gb。因此,试着运行完整作业的一个小子集,然后运行一个更大的子集,然后再运行一个更大的子集,看看处理时间的增加是线性的还是指数的。记录处理过程的不同阶段也是个好主意。我刚刚问了另一个与此相关的问题。请看一看,如果相关的话,请给我回电话。