Sorting 在Pyspark中对大量数据进行全局排名的有效方法
我正在尝试使用Pyspark对大量数据进行全局排名 我在网上搜索,找到了许多在Windows中使用的答案:Sorting 在Pyspark中对大量数据进行全局排名的有效方法,sorting,pyspark,ranking,Sorting,Pyspark,Ranking,我正在尝试使用Pyspark对大量数据进行全局排名 我在网上搜索,找到了许多在Windows中使用的答案: window_rank = Window.orderBy(F.asc('score')) scores_df = scores_df.withColumn('rank', F.row_number().over(window_rank)) 然而,这种方法似乎将所有数据混合到一个工作节点中,因此,对于大量数据来说,它不是最优的 在Pyspark中有分布式的排名方法吗?您认为有可能吗?如何对
window_rank = Window.orderBy(F.asc('score'))
scores_df = scores_df.withColumn('rank', F.row_number().over(window_rank))
然而,这种方法似乎将所有数据混合到一个工作节点中,因此,对于大量数据来说,它不是最优的
在Pyspark中有分布式的排名方法吗?您认为有可能吗?如何对多个节点之间的数据进行排序?听起来在理论上对多个节点之间的数据进行排序是可能的,但这比将所有节点放在一起需要更多的计算。你有近似的方法吗?