Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/sorting/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Sorting 在Pyspark中对大量数据进行全局排名的有效方法_Sorting_Pyspark_Ranking - Fatal编程技术网

Sorting 在Pyspark中对大量数据进行全局排名的有效方法

Sorting 在Pyspark中对大量数据进行全局排名的有效方法,sorting,pyspark,ranking,Sorting,Pyspark,Ranking,我正在尝试使用Pyspark对大量数据进行全局排名 我在网上搜索,找到了许多在Windows中使用的答案: window_rank = Window.orderBy(F.asc('score')) scores_df = scores_df.withColumn('rank', F.row_number().over(window_rank)) 然而,这种方法似乎将所有数据混合到一个工作节点中,因此,对于大量数据来说,它不是最优的 在Pyspark中有分布式的排名方法吗?您认为有可能吗?如何对

我正在尝试使用Pyspark对大量数据进行全局排名

我在网上搜索,找到了许多在Windows中使用的答案:

window_rank = Window.orderBy(F.asc('score'))
scores_df = scores_df.withColumn('rank', F.row_number().over(window_rank))
然而,这种方法似乎将所有数据混合到一个工作节点中,因此,对于大量数据来说,它不是最优的


在Pyspark中有分布式的排名方法吗?

您认为有可能吗?如何对多个节点之间的数据进行排序?听起来在理论上对多个节点之间的数据进行排序是可能的,但这比将所有节点放在一起需要更多的计算。你有近似的方法吗?