Optimization Hadoop计数器-调优和优化_Optimization_Hadoop_Cloudera_Performance

Optimization Hadoop计数器-调优和优化

optimization hadoop performance

Optimization Hadoop计数器-调优和优化,optimization,hadoop,cloudera,performance,Optimization,Hadoop,Cloudera,Performance,我刚刚写了我的第一份hadoop工作。它处理许多文件，并为每个输入文件生成多个输出文件。我在一个两节点集群上运行它，最大的输入集大约需要10分钟。看看下面的计数器，我可以做些什么优化来使它运行得更快？在这些计数器中是否有任何具体的指示器- 版本：2.0.0-mr1-cdh4.1.2 地图任务能力：20 减少任务能力：20 每个节点的平均任务：20我们可以在这里看到，大多数数据缩减发生在映射阶段（映射输出字节数远小于HDFS读取字节数，映射输入记录也是如此-它远低于映射输入记录）。我们还看到了大

我刚刚写了我的第一份hadoop工作。它处理许多文件，并为每个输入文件生成多个输出文件。我在一个两节点集群上运行它，最大的输入集大约需要10分钟。看看下面的计数器，我可以做些什么优化来使它运行得更快？在这些计数器中是否有任何具体的指示器-

版本：2.0.0-mr1-cdh4.1.2

地图任务能力：20

减少任务能力：20

每个节点的平均任务：20

我们可以在这里看到，大多数数据缩减发生在映射阶段（映射输出字节数远小于HDFS读取字节数，映射输入记录也是如此-它远低于映射输入记录）。我们还看到了大量的CPU时间花费。我们还看到洗牌字节数较少
所以这个工作是：
a）大量的数据缩减是在映射阶段完成的
b）该作业受CPU限制

所以我认为应该优化映射器和reducer的代码。I/O可能对该作业不重要。

另一个有趣的事实是，由于输出记录为零，减速机没有向HDFS输出任何内容。您是否像数据库一样写入辅助存储？reducer会写入HDFS上的输出文件。我没有与任何辅助存储交互，那么为什么计数器为0？