Apache flink apacheflink中的全局排序_Apache Flink

Apache flink apacheflink中的全局排序

apache-flink

Apache flink apacheflink中的全局排序,apache-flink,Apache Flink,数据集的sortPartition方法基于某些指定字段对数据集进行本地排序。如何在Flink中以高效的方式对大型数据集进行全局排序？这目前不太可能，因为Flink还没有提供内置的范围分区策略解决方法是实现自定义的分区器： DataSet<Tuple2<Long, Long>> data = ... data .partitionCustom(new Partitioner<Long>() { int partition(Long key, int

数据集的sortPartition方法基于某些指定字段对数据集进行本地排序。如何在Flink中以高效的方式对大型数据集进行全局排序？

这目前不太可能，因为Flink还没有提供内置的范围分区策略

解决方法是实现自定义的

分区器

：

DataSet<Tuple2<Long, Long>> data = ...
data
  .partitionCustom(new Partitioner<Long>() {
    int partition(Long key, int numPartitions) {
      // your implementation
    }
  }, 0)
  .sortPartition(0, Order.ASCENDING)
  .writeAsText("/my/output");

数据集数据=。。。数据 .partitionCustom（新的分区器（）{ int分区（长键，int numPartitions）{ //您的实现 } }, 0) .sortPartition（0，顺序。升序） .writesText（“/my/output”）；注意：为了使用自定义分区器实现平衡分区，您需要了解键的值范围和分布

ApacheFlink中对范围分割器（具有自动采样）的支持目前已经存在，并且很快就会提供

编辑（2016年6月7日）：范围分区已添加到Apache Flink的1.0.0版中。您可以按如下方式对数据集进行全局排序：

DataSet<Tuple2<Long, Long>> data = ...
data
  .partitionByRange(0)
  .sortPartition(0, Order.ASCENDING)
  .writeAsText("/my/output");

数据集数据=。。。数据 .partitionByRange（0） .sortPartition（0，顺序。升序） .writesText（“/my/output”）；

请注意，范围分区对输入数据集进行采样，以计算大小相等的分区的数据分布。

1-如果我们对数据集没有任何了解，如何对它们进行分区？2-假设我们找到了这样做的方法。这个命令是否输出一个全局排序的数据集？1）这是一个很好的观点。如果您实现了一个自定义分区器，那么您应该知道键的值范围和分布，以实现平衡分区。链接的拉取请求中的范围分区器会自动对数据进行采样以获得分布。2）是的，如果在同一个键上对每个分区进行范围划分和排序，则输出将被全局排序。