Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/sorting/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/github/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Sorting 在apache beam中对整个数据集进行排序_Sorting_Mapreduce_Stream_Distributed_Apache Beam - Fatal编程技术网

Sorting 在apache beam中对整个数据集进行排序

Sorting 在apache beam中对整个数据集进行排序,sorting,mapreduce,stream,distributed,apache-beam,Sorting,Mapreduce,Stream,Distributed,Apache Beam,假设我有大量字符串集合,我希望使用ApacheBeam对其进行排序。这可能吗?我只找到了关于在一台机器上运行排序的文档,但我要找的是分布式排序算法。Beam没有这样的操作。为什么需要全局排序的数据集?用户经常会问这个问题,但到目前为止,在我记忆中的每一个案例中,他们想要做的实际上并不需要全局排序。我正在考虑使用beam来取代另一个支持全局排序的分布式管道系统。这是外部的要求,我无法控制。我是否正确理解您希望生成一组文件,其中每个文件内的数据是有序的,文件之间的数据是有序的(即,名称按字典顺序较小

假设我有大量字符串集合,我希望使用ApacheBeam对其进行排序。这可能吗?我只找到了关于在一台机器上运行排序的文档,但我要找的是分布式排序算法。

Beam没有这样的操作。为什么需要全局排序的数据集?用户经常会问这个问题,但到目前为止,在我记忆中的每一个案例中,他们想要做的实际上并不需要全局排序。我正在考虑使用beam来取代另一个支持全局排序的分布式管道系统。这是外部的要求,我无法控制。我是否正确理解您希望生成一组文件,其中每个文件内的数据是有序的,文件之间的数据是有序的(即,名称按字典顺序较小的文件具有较早的数据),数据量如此之大,以至于用一台机器读取或写入数据量都是不切实际的?(Beam可以在一台机器上对大量数据进行排序-它不必放入内存)(一种方法是将整个数据集,用排序键(如Cloud Bigtable)写入分布式数据库,然后按顺序读回并写入文件)是的,你知道我想要什么。谢谢