在DataRicks中从Pyspark数据帧优化SQL表创建_Pyspark_Apache Spark Sql_Databricks

在DataRicks中从Pyspark数据帧优化SQL表创建

pyspark

在DataRicks中从Pyspark数据帧优化SQL表创建,pyspark,apache-spark-sql,databricks,Pyspark,Apache Spark Sql,Databricks,Spark DF:jrny\u df1.createOrReplaceTempView（“journeymap\u drvs1”）约：10毫米记录创建此视图的sql表需要很长时间： create table temp.ms_journey_drvsv1 as select * from journeymap_drvs1; 我可以遵循任何流程来优化表创建的速度。我们使用Spark 2.4、88核、671 GB内存检查集群配置，相应地对DF进行分区，以实现视差，从而最终缩短时间。有很多方法。更

Spark DF:

jrny\u df1.createOrReplaceTempView（“journeymap\u drvs1”）

约：10毫米记录

创建此视图的sql表需要很长时间：

create table temp.ms_journey_drvsv1 as select * from journeymap_drvs1;

我可以遵循任何流程来优化表创建的速度。我们使用Spark 2.4、88核、671 GB内存检查集群配置，相应地对DF进行分区，以实现视差，从而最终缩短时间。有很多方法。更多的分区，更多的计算，更快的存储。。。很难说没有更多的细节。它甚至可能不是缓慢的存储部分，而是从源代码读取的部分