在DataRicks中从Pyspark数据帧优化SQL表创建

在DataRicks中从Pyspark数据帧优化SQL表创建,pyspark,apache-spark-sql,databricks,Pyspark,Apache Spark Sql,Databricks,Spark DF:jrny\u df1.createOrReplaceTempView(“journeymap\u drvs1”) 约:10毫米记录 创建此视图的sql表需要很长时间: create table temp.ms_journey_drvsv1 as select * from journeymap_drvs1; 我可以遵循任何流程来优化表创建的速度。我们使用Spark 2.4、88核、671 GB内存检查集群配置,相应地对DF进行分区,以实现视差,从而最终缩短时间。有很多方法。更

Spark DF:
jrny\u df1.createOrReplaceTempView(“journeymap\u drvs1”)
约:10毫米记录

创建此视图的sql表需要很长时间:

create table temp.ms_journey_drvsv1 as select * from journeymap_drvs1;

我可以遵循任何流程来优化表创建的速度。我们使用Spark 2.4、88核、671 GB内存检查集群配置,相应地对DF进行分区,以实现视差,从而最终缩短时间。有很多方法。更多的分区,更多的计算,更快的存储。。。很难说没有更多的细节。它甚至可能不是缓慢的存储部分,而是从源代码读取的部分