Apache spark Spark数据帧写入程序-范围分区_Apache Spark_Apache Spark Sql_Spark Dataframe

Apache spark Spark数据帧写入程序-范围分区

apache-spark

Apache spark Spark数据帧写入程序-范围分区,apache-spark,apache-spark-sql,spark-dataframe,Apache Spark,Apache Spark Sql,Spark Dataframe,是否可以让Spark Data Frame Writer基于RangePartitioning进行写入前- 列a有10个不同的值，比如1到10 df.write .partitionBy("column_a") 默认情况下，上述代码将创建10个文件夹。。列a=1，列a=2…列a=10 我想看看是否有可能让这些分区基于bucket-col_a=1到5，col_a=5-10。。或者类似的？然后也有查询引擎尊重它谢谢要做到这一点，您可能需要编写自己的分区程序。检查这个：是的，但这只会在RDD中对

是否可以让Spark Data Frame Writer基于RangePartitioning进行写入

前-

列a有10个不同的值，比如1到10

df.write
.partitionBy("column_a")

默认情况下，上述代码将创建10个文件夹。。列a=1，列a=2…列a=10

我想看看是否有可能让这些分区基于bucket-col_a=1到5，col_a=5-10。。或者类似的？然后也有查询引擎尊重它

谢谢

要做到这一点，您可能需要编写自己的分区程序。检查这个：是的，但这只会在RDD中对数据进行分区。当数据写入磁盘上的文件时，它还会对数据进行分区吗？（将数据放入文件夹中）是的，这也是可能的。使用

MultipleOutputFormat