Sorting Spark数据帧排序在Spark 1.6中的群集环境中不起作用

Sorting Spark数据帧排序在Spark 1.6中的群集环境中不起作用,sorting,hadoop,apache-spark,spark-dataframe,bigdata,Sorting,Hadoop,Apache Spark,Spark Dataframe,Bigdata,在群集环境下的Spark 1.6中,我们在数据帧上的数据排序方面面临某些挑战。我们使用的是df.orderBy(userColumn,rankColumn)。当数据在一个分区中时,数据的排序是正确的。一旦分区大小增加,数据帧排序就无法在集群环境中工作。我们尝试了按方法分发和排序,以及按以下帖子进行分发:。这也不起作用。请提出建议。您的意见是什么?你做了什么?预期产量是多少?实际输出是什么?输入:df.show()userColumn rankColumn U5 5 U6 1 U1 1 U1 2

在群集环境下的Spark 1.6中,我们在数据帧上的数据排序方面面临某些挑战。我们使用的是
df.orderBy(userColumn,rankColumn)
。当数据在一个分区中时,数据的排序是正确的。一旦分区大小增加,数据帧排序就无法在集群环境中工作。我们尝试了按方法分发和排序,以及按以下帖子进行分发:。这也不起作用。请提出建议。

您的意见是什么?你做了什么?预期产量是多少?实际输出是什么?输入:df.show()userColumn rankColumn U5 5 U6 1 U1 1 U1 2 U5 4 U5 2 U2 4 U3 1 df=df.orderBy(userColumn,rankColumn)df.show()预期输出:userColumn rankColumn U1 1 U1 2 U2 U2 4 U3 1 U5 2 U5 5 5 5 U6 1实际输出(如果spark将所有数据放在一个分区中):userColumn rankColumn U1 U1 2 U2 4 U3 1 U5 2 U5 4 U5 5 U6 1实际输出(如果spark未将所有数据放在一个分区中):U1 2 U1 U3 1 U2 U2 U5 4 U55@Yaron:如果你需要更多的细节,请告诉我。