Apache spark 在PySpark中编写增量表时如何使用Zorder集群?
我正试图按照我在中看到的建议编写一个非常大的PySpark数据帧 然而,这个页面显示了Scala中的建议,我不知道如何将其转换为PySpark 我看到Scala代码如下:Apache spark 在PySpark中编写增量表时如何使用Zorder集群?,apache-spark,pyspark,apache-spark-sql,databricks,Apache Spark,Pyspark,Apache Spark Sql,Databricks,我正试图按照我在中看到的建议编写一个非常大的PySpark数据帧 然而,这个页面显示了Scala中的建议,我不知道如何将其转换为PySpark 我看到Scala代码如下: spark.read.table(connRandom) .write.format("delta").saveAsTable(connZorder) sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)") 但是我如何
spark.read.table(connRandom)
.write.format("delta").saveAsTable(connZorder)
sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")
但是我如何做第二行的等效操作,比如说在PySpark中特定列my_col上的zorder cluster?第二行是Scala发出的SQL命令。您可以在python中使用spark.sqlOPTIMIZE tableName ZORDER BY my_col执行同样的操作
再看一下,它有一个完整的PySpark笔记本示例。第二行是Scala给出的SQL命令。您可以在python中使用spark.sqlOPTIMIZE tableName ZORDER BY my_col执行同样的操作
再看看,它有一个完整的PySpark笔记本示例。如果我将其写入文件夹而不是spark表,Z顺序是否也适用?如果我将其写入文件夹而不是spark表,Z顺序是否也适用?