Dataframe 如何创造,；访问数据集的分区？_Dataframe_Apache Spark_Apache Spark Sql_Dataset

Dataframe 如何创造,；访问数据集的分区？

dataframe apache-spark

Dataframe 如何创造,；访问数据集的分区？,dataframe,apache-spark,apache-spark-sql,dataset,Dataframe,Apache Spark,Apache Spark Sql,Dataset,我根据条件对数据集进行分区；现在要对数据集进行分区，我只是通过如下过滤创建单独的数据集： Dataset<Row> firstDf = df1.where("col2Att <= val1"); Dataset<Row> secondDf = df1.where("col2Att > val2"); Dataset firstDf=df1.where（“col2Att v

我根据条件对数据集进行分区；现在要对数据集进行分区，我只是通过如下过滤创建单独的数据集：

        Dataset<Row> firstDf = df1.where("col2Att <= val1");
       
        Dataset<Row> secondDf = df1.where("col2Att > val2");

Dataset firstDf=df1.where（“col2Att val2”）；

但是我想在数据集中执行这个操作（而不必产生两个数据集），我想通过

partitionBy

就可以了

val1

val2

需要更新，我想用

val1

val2

（例如

val3

val4

）以外的其他值对分区进行分区，以便我以后单独访问每个分区

如何使用Spark/Java实现这一点

谢谢。

我很难理解您所说的

val1和val2是什么意思。我想用val1和val2以外的值（例如val3和val4）来划分分区。

。如果我理解正确，您希望通过使用

val1

，

val2

检查其值，根据

col2Att

列在

df1

中创建分区。如果更改

val1

，

val2

，那么分区将如何形成？也许输入数据集中的一些行和所需的输出会更清楚一些。我希望使用两个以上的值在一个属性上对数据集进行分区，然后通过数据集访问每个分区。