Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/logging/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark数据帧写入程序-范围分区_Apache Spark_Apache Spark Sql_Spark Dataframe - Fatal编程技术网

Apache spark Spark数据帧写入程序-范围分区

Apache spark Spark数据帧写入程序-范围分区,apache-spark,apache-spark-sql,spark-dataframe,Apache Spark,Apache Spark Sql,Spark Dataframe,是否可以让Spark Data Frame Writer基于RangePartitioning进行写入 前- 列a有10个不同的值,比如1到10 df.write .partitionBy("column_a") 默认情况下,上述代码将创建10个文件夹。。列a=1,列a=2…列a=10 我想看看是否有可能让这些分区基于bucket-col_a=1到5,col_a=5-10。。或者类似的?然后也有查询引擎尊重它 谢谢要做到这一点,您可能需要编写自己的分区程序。检查这个:是的,但这只会在RDD中对

是否可以让Spark Data Frame Writer基于RangePartitioning进行写入

前-

列a有10个不同的值,比如1到10

df.write
.partitionBy("column_a")
默认情况下,上述代码将创建10个文件夹。。列a=1,列a=2…列a=10

我想看看是否有可能让这些分区基于bucket-col_a=1到5,col_a=5-10。。或者类似的?然后也有查询引擎尊重它


谢谢

要做到这一点,您可能需要编写自己的分区程序。检查这个:是的,但这只会在RDD中对数据进行分区。当数据写入磁盘上的文件时,它还会对数据进行分区吗?(将数据放入文件夹中)是的,这也是可能的。使用
MultipleOutputFormat