Optimization Hadoop计数器-调优和优化

Optimization Hadoop计数器-调优和优化,optimization,hadoop,cloudera,performance,Optimization,Hadoop,Cloudera,Performance,我刚刚写了我的第一份hadoop工作。它处理许多文件,并为每个输入文件生成多个输出文件。我在一个两节点集群上运行它,最大的输入集大约需要10分钟。看看下面的计数器,我可以做些什么优化来使它运行得更快?在这些计数器中是否有任何具体的指示器- 版本:2.0.0-mr1-cdh4.1.2 地图任务能力:20 减少任务能力:20 每个节点的平均任务:20我们可以在这里看到,大多数数据缩减发生在映射阶段(映射输出字节数远小于HDFS读取字节数,映射输入记录也是如此-它远低于映射输入记录)。我们还看到了大

我刚刚写了我的第一份hadoop工作。它处理许多文件,并为每个输入文件生成多个输出文件。我在一个两节点集群上运行它,最大的输入集大约需要10分钟。看看下面的计数器,我可以做些什么优化来使它运行得更快?在这些计数器中是否有任何具体的指示器-

版本:2.0.0-mr1-cdh4.1.2

地图任务能力:20

减少任务能力:20


每个节点的平均任务:20

我们可以在这里看到,大多数数据缩减发生在映射阶段(映射输出字节数远小于HDFS读取字节数,映射输入记录也是如此-它远低于映射输入记录)。我们还看到了大量的CPU时间花费。我们还看到洗牌字节数较少
所以这个工作是:
a) 大量的数据缩减是在映射阶段完成的
b) 该作业受CPU限制


所以我认为应该优化映射器和reducer的代码。I/O可能对该作业不重要。

另一个有趣的事实是,由于输出记录为零,减速机没有向HDFS输出任何内容。您是否像数据库一样写入辅助存储?reducer会写入HDFS上的输出文件。我没有与任何辅助存储交互,那么为什么计数器为0?