Apache spark 如何从数据集中创建不同的行组合
假设我有一个数据集:Apache spark 如何从数据集中创建不同的行组合,apache-spark,Apache Spark,假设我有一个数据集: +----+----+----+-----+----+ ||col0|col2|col2|col3|col4| +----+----+----+-----+----+ | t0| 10| 100|cat26|30.9| | t1| 20| 200|cat13|22.1| | t2| 30| 300|cat26|30.9| | t3| 40| 400|cat26|30.9| | t4| 50| 500|cat15|15.3| | t5| 6
+----+----+----+-----+----+
||col0|col2|col2|col3|col4|
+----+----+----+-----+----+
| t0| 10| 100|cat26|30.9|
| t1| 20| 200|cat13|22.1|
| t2| 30| 300|cat26|30.9|
| t3| 40| 400|cat26|30.9|
| t4| 50| 500|cat15|15.3|
| t5| 60| 600|cat13|22.1|
+----+----+----+-----+----+
我使用where()
选择一个子数据集:
我想使用这三行创建不同的组合,为每个组合形成一个数据集
如何在JAVA中实现这一点?
多谢各位
更新:组合示例如下:
+----+----+----+-----+----+
|col0|col2|col2|col3 |col4|
+----+----+----+-----+----+
| t0| 10| 100|cat26|30.9|
| t2| 30| 300|cat26|30.9|
+----+----+----+-----+----+
另一个是:
+----+----+----+-----+----+
|col0|col2|col2|col3 |col4|
+----+----+----+-----+----+
| t2| 30| 300|cat26|30.9|
| t3| 40| 400|cat26|30.9|
+----+----+----+-----+----+
三是:
+----+----+----+-----+----+
|col0|col2|col2|col3 |col4|
+----+----+----+-----+----+
| t0| 10| 100|cat26|30.9|
| t3| 40| 400|cat26|30.9|
+----+----+----+-----+----+
最后:
+----+----+----+-----+----+
|col0|col2|col2|col3 |col4|
+----+----+----+-----+----+
| t0| 10| 100|cat26|30.9|
| t2| 30| 300|cat26|30.9|
| t3 | 40| 400|cat26|30.9|
+----+----+----+-----+----+
您可以添加数据集组合的外观吗?请参阅更新,每个组合都应该看起来像一个数据集(行集)。至少,每个组合都有两行
+----+----+----+-----+----+
|col0|col2|col2|col3 |col4|
+----+----+----+-----+----+
| t0| 10| 100|cat26|30.9|
| t3| 40| 400|cat26|30.9|
+----+----+----+-----+----+
+----+----+----+-----+----+
|col0|col2|col2|col3 |col4|
+----+----+----+-----+----+
| t0| 10| 100|cat26|30.9|
| t2| 30| 300|cat26|30.9|
| t3 | 40| 400|cat26|30.9|
+----+----+----+-----+----+