Sorting Spark数据帧排序在Spark 1.6中的群集环境中不起作用_Sorting_Hadoop_Apache Spark_Spark Dataframe_Bigdata

Sorting Spark数据帧排序在Spark 1.6中的群集环境中不起作用

sorting hadoop apache-spark

Sorting Spark数据帧排序在Spark 1.6中的群集环境中不起作用,sorting,hadoop,apache-spark,spark-dataframe,bigdata,Sorting,Hadoop,Apache Spark,Spark Dataframe,Bigdata,在群集环境下的Spark 1.6中，我们在数据帧上的数据排序方面面临某些挑战。我们使用的是df.orderBy（userColumn，rankColumn）。当数据在一个分区中时，数据的排序是正确的。一旦分区大小增加，数据帧排序就无法在集群环境中工作。我们尝试了按方法分发和排序，以及按以下帖子进行分发：。这也不起作用。请提出建议。您的意见是什么？你做了什么？预期产量是多少？实际输出是什么？输入：df.show（）userColumn rankColumn U5 5 U6 1 U1 1 U1 2

在群集环境下的Spark 1.6中，我们在数据帧上的数据排序方面面临某些挑战。我们使用的是

df.orderBy（userColumn，rankColumn）

。当数据在一个分区中时，数据的排序是正确的。一旦分区大小增加，数据帧排序就无法在集群环境中工作。我们尝试了按方法分发和排序，以及按以下帖子进行分发：。这也不起作用。请提出建议。

您的意见是什么？你做了什么？预期产量是多少？实际输出是什么？输入：df.show（）userColumn rankColumn U5 5 U6 1 U1 1 U1 2 U5 4 U5 2 U2 4 U3 1 df=df.orderBy（userColumn，rankColumn）df.show（）预期输出：userColumn rankColumn U1 1 U1 2 U2 U2 4 U3 1 U5 2 U5 5 5 5 U6 1实际输出（如果spark将所有数据放在一个分区中）：userColumn rankColumn U1 U1 2 U2 4 U3 1 U5 2 U5 4 U5 5 U6 1实际输出（如果spark未将所有数据放在一个分区中）：U1 2 U1 U3 1 U2 U2 U5 4 U55@Yaron：如果你需要更多的细节，请告诉我。