Dataframe 如何创造,;访问数据集的分区?
我根据条件对数据集进行分区;现在要对数据集进行分区,我只是通过如下过滤创建单独的数据集:Dataframe 如何创造,;访问数据集的分区?,dataframe,apache-spark,apache-spark-sql,dataset,Dataframe,Apache Spark,Apache Spark Sql,Dataset,我根据条件对数据集进行分区;现在要对数据集进行分区,我只是通过如下过滤创建单独的数据集: Dataset<Row> firstDf = df1.where("col2Att <= val1"); Dataset<Row> secondDf = df1.where("col2Att > val2"); Dataset firstDf=df1.where(“col2Att v
Dataset<Row> firstDf = df1.where("col2Att <= val1");
Dataset<Row> secondDf = df1.where("col2Att > val2");
Dataset firstDf=df1.where(“col2Att val2”);
但是我想在数据集中执行这个操作(而不必产生两个数据集),我想通过partitionBy
就可以了val1
&val2
需要更新,我想用val1
&val2
(例如val3
&val4
)以外的其他值对分区进行分区,以便我以后单独访问每个分区
如何使用Spark/Java实现这一点
谢谢。我很难理解您所说的
val1和val2是什么意思。我想用val1和val2以外的值(例如val3和val4)来划分分区。
。如果我理解正确,您希望通过使用val1
,val2
检查其值,根据col2Att
列在df1
中创建分区。如果更改val1
,val2
,那么分区将如何形成?也许输入数据集中的一些行和所需的输出会更清楚一些。我希望使用两个以上的值在一个属性上对数据集进行分区,然后通过数据集访问每个分区。