Hadoop 在Apache crunch中为特定Dofn配置还原器的数量

Hadoop 在Apache crunch中为特定Dofn配置还原器的数量,hadoop,mapreduce,apache-crunch,Hadoop,Mapreduce,Apache Crunch,我知道有像CRUNCH_BYTES_PER_REDUCE_TASK或mapred.REDUCE.tasks这样的属性来设置减缩器的数量 任何人都可以建议为需要更多时间执行的特定Dofn配置/覆盖默认还原程序。可以使用ParallelDoOptions为特定Dofn配置还原程序,并将其作为parallelDo中的第四个参数传递,如下所示: ParallelDoOptions opts = ParallelDoOptions.builder().conf("mapred.reduce.tasks",

我知道有像CRUNCH_BYTES_PER_REDUCE_TASK或mapred.REDUCE.tasks这样的属性来设置减缩器的数量


任何人都可以建议为需要更多时间执行的特定Dofn配置/覆盖默认还原程序。

可以使用
ParallelDoOptions
为特定Dofn配置还原程序,并将其作为
parallelDo
中的第四个参数传递,如下所示:

ParallelDoOptions opts = ParallelDoOptions.builder().conf("mapred.reduce.tasks", "64").build();

并将其作为第四个参数传入
parallelDo

Crunch的
MapFn
接口包括
scaleFactor
方法:

您可以覆盖自定义dofn中的scaleFactor方法,以便向Crunch planner提供一个提示,说明输入数据集在通过process方法后将变大(或变小)多少。如果调用groupByKey方法时未提供明确数量的reducer,规划人员将根据输入数据的大小,尝试猜测作业应使用多少reduce任务,这部分是通过使用在处理路径中的DOFN上调用scaleFactor方法的结果来确定的

资料来源:

Javadocs链接: