Hadoop 在Apache crunch中为特定Dofn配置还原器的数量_Hadoop_Mapreduce_Apache Crunch

Hadoop 在Apache crunch中为特定Dofn配置还原器的数量

hadoop mapreduce

Hadoop 在Apache crunch中为特定Dofn配置还原器的数量,hadoop,mapreduce,apache-crunch,Hadoop,Mapreduce,Apache Crunch,我知道有像CRUNCH_BYTES_PER_REDUCE_TASK或mapred.REDUCE.tasks这样的属性来设置减缩器的数量任何人都可以建议为需要更多时间执行的特定Dofn配置/覆盖默认还原程序。可以使用ParallelDoOptions为特定Dofn配置还原程序，并将其作为parallelDo中的第四个参数传递，如下所示： ParallelDoOptions opts = ParallelDoOptions.builder().conf("mapred.reduce.tasks",

我知道有像CRUNCH_BYTES_PER_REDUCE_TASK或mapred.REDUCE.tasks这样的属性来设置减缩器的数量

任何人都可以建议为需要更多时间执行的特定Dofn配置/覆盖默认还原程序。

可以使用

ParallelDoOptions

为特定Dofn配置还原程序，并将其作为

parallelDo

中的第四个参数传递，如下所示：

ParallelDoOptions opts = ParallelDoOptions.builder().conf("mapred.reduce.tasks", "64").build();

并将其作为第四个参数传入

parallelDo

。

Crunch的

MapFn

接口包括

scaleFactor

方法：

您可以覆盖自定义dofn中的scaleFactor方法，以便向Crunch planner提供一个提示，说明输入数据集在通过process方法后将变大（或变小）多少。如果调用groupByKey方法时未提供明确数量的reducer，规划人员将根据输入数据的大小，尝试猜测作业应使用多少reduce任务，这部分是通过使用在处理路径中的DOFN上调用scaleFactor方法的结果来确定的

资料来源：

Javadocs链接：