Apache spark 在PySpark中编写增量表时如何使用Zorder集群?

Apache spark 在PySpark中编写增量表时如何使用Zorder集群?,apache-spark,pyspark,apache-spark-sql,databricks,Apache Spark,Pyspark,Apache Spark Sql,Databricks,我正试图按照我在中看到的建议编写一个非常大的PySpark数据帧 然而,这个页面显示了Scala中的建议,我不知道如何将其转换为PySpark 我看到Scala代码如下: spark.read.table(connRandom) .write.format("delta").saveAsTable(connZorder) sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)") 但是我如何

我正试图按照我在中看到的建议编写一个非常大的PySpark数据帧

然而,这个页面显示了Scala中的建议,我不知道如何将其转换为PySpark

我看到Scala代码如下:

spark.read.table(connRandom)
     .write.format("delta").saveAsTable(connZorder)

sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")

但是我如何做第二行的等效操作,比如说在PySpark中特定列my_col上的zorder cluster?

第二行是Scala发出的SQL命令。您可以在python中使用spark.sqlOPTIMIZE tableName ZORDER BY my_col执行同样的操作


再看一下,它有一个完整的PySpark笔记本示例。

第二行是Scala给出的SQL命令。您可以在python中使用spark.sqlOPTIMIZE tableName ZORDER BY my_col执行同样的操作


再看看,它有一个完整的PySpark笔记本示例。

如果我将其写入文件夹而不是spark表,Z顺序是否也适用?如果我将其写入文件夹而不是spark表,Z顺序是否也适用?