Sorting 在Pyspark中对大量数据进行全局排名的有效方法_Sorting_Pyspark_Ranking

Sorting 在Pyspark中对大量数据进行全局排名的有效方法

sorting pyspark

Sorting 在Pyspark中对大量数据进行全局排名的有效方法,sorting,pyspark,ranking,Sorting,Pyspark,Ranking,我正在尝试使用Pyspark对大量数据进行全局排名我在网上搜索，找到了许多在Windows中使用的答案： window_rank = Window.orderBy(F.asc('score')) scores_df = scores_df.withColumn('rank', F.row_number().over(window_rank)) 然而，这种方法似乎将所有数据混合到一个工作节点中，因此，对于大量数据来说，它不是最优的在Pyspark中有分布式的排名方法吗？您认为有可能吗？如何对

我正在尝试使用Pyspark对大量数据进行全局排名

我在网上搜索，找到了许多在Windows中使用的答案：

window_rank = Window.orderBy(F.asc('score'))
scores_df = scores_df.withColumn('rank', F.row_number().over(window_rank))

然而，这种方法似乎将所有数据混合到一个工作节点中，因此，对于大量数据来说，它不是最优的

在Pyspark中有分布式的排名方法吗？

您认为有可能吗？如何对多个节点之间的数据进行排序？听起来在理论上对多个节点之间的数据进行排序是可能的，但这比将所有节点放在一起需要更多的计算。你有近似的方法吗？