Dataframe 如何创造,;访问数据集的分区?

Dataframe 如何创造,;访问数据集的分区?,dataframe,apache-spark,apache-spark-sql,dataset,Dataframe,Apache Spark,Apache Spark Sql,Dataset,我根据条件对数据集进行分区;现在要对数据集进行分区,我只是通过如下过滤创建单独的数据集: Dataset<Row> firstDf = df1.where("col2Att <= val1"); Dataset<Row> secondDf = df1.where("col2Att > val2"); Dataset firstDf=df1.where(“col2Att v

我根据条件对数据集进行分区;现在要对数据集进行分区,我只是通过如下过滤创建单独的数据集:

        Dataset<Row> firstDf = df1.where("col2Att <= val1");
       
        Dataset<Row> secondDf = df1.where("col2Att > val2");
Dataset firstDf=df1.where(“col2Att val2”);
但是我想在数据集中执行这个操作(而不必产生两个数据集),我想通过
partitionBy
就可以了
val1
&
val2
需要更新,我想用
val1
&
val2
(例如
val3
&
val4
)以外的其他值对分区进行分区,以便我以后单独访问每个分区

如何使用Spark/Java实现这一点


谢谢。

我很难理解您所说的
val1和val2是什么意思。我想用val1和val2以外的值(例如val3和val4)来划分分区。
。如果我理解正确,您希望通过使用
val1
val2
检查其值,根据
col2Att
列在
df1
中创建分区。如果更改
val1
val2
,那么分区将如何形成?也许输入数据集中的一些行和所需的输出会更清楚一些。我希望使用两个以上的值在一个属性上对数据集进行分区,然后通过数据集访问每个分区。