Hadoop 控制和监控纱线中同时映射/减少任务的数量_Hadoop_Mapreduce_Yarn

Hadoop 控制和监控纱线中同时映射/减少任务的数量

hadoop mapreduce

Hadoop 控制和监控纱线中同时映射/减少任务的数量,hadoop,mapreduce,yarn,Hadoop,Mapreduce,Yarn,我在少数功能强大的机器上部署了Hadoop 2.2集群。我有一个限制，使用纱线作为框架，我不是很熟悉如何控制实际映射的数量并减少并行运行的任务？每台机器都有许多CPU核（12-32）和足够的RAM。我想最大限度地利用它们我如何监控我的设置是否确实提高了机器的利用率？我在哪里可以检查给定作业期间使用了多少内核（线程、进程）提前感谢您帮助我融化这些机器：） Hortonworks提供了一个关于纱线的配置您可以在服务器中分析作业。通常可以在端口19888上找到它。并且对于集群利用率的测量也是非

我在少数功能强大的机器上部署了Hadoop 2.2集群。我有一个限制，使用纱线作为框架，我不是很熟悉

如何控制实际映射的数量并减少并行运行的任务？每台机器都有许多CPU核（12-32）和足够的RAM。我想最大限度地利用它们

我如何监控我的设置是否确实提高了机器的利用率？我在哪里可以检查给定作业期间使用了多少内核（线程、进程）

提前感谢您帮助我融化这些机器：）

Hortonworks提供了一个关于纱线的配置

您可以在服务器中分析作业。通常可以在端口19888上找到它。并且对于集群利用率的测量也是非常好的

1.
在MR1中，mapred.tasktracker.map.tasks.max和mapred.tasktracker.reduce.tasks.max属性决定了每个tasktracker的map和reduce插槽数量

这些特性不再存在于纱线中。相反，Thread使用warn.nodemanager.resource.memory-mb和warn.nodemanager.resource.cpu-vcores控制每个节点上的内存和cpu量，这两个节点都可用于映射和压缩

本质上：
纱线没有任务跟踪器，只有普通的节点管理器。因此，没有更多的贴图插槽，并减少插槽分离。一切都取决于使用/需要的内存量

二,

使用web UI，您可以获得许多监控/管理类信息：

名称节点-http://:50070/
资源管理器-http://:8088/

此外，Apache Ambari的目的是：

和色调，以多种方式与Hadoop/纱线集群连接：我也有同样的问题，为了增加映射器的数量，建议减小输入分割的大小（每个输入分割由映射器和容器处理）。我不知道怎么做

事实上，hadoop 2.2/Thread没有考虑以下任何设置

<property>
    <name>mapreduce.input.fileinputformat.split.minsize</name>
    <value>1</value>
</property>
<property>
    <name>mapreduce.input.fileinputformat.split.maxsize</name>
    <value>16777216</value>
</property>

<property>
    <name>mapred.min.split.size</name>
    <value>1</value>
</property>
<property>
    <name>mapred.max.split.size</name>
    <value>16777216</value>
</property>


mapreduce.input.fileinputformat.split.minsize
1.
mapreduce.input.fileinputformat.split.maxsize
16777216
mapred.min.split.size
1.
mapred.max.split.size
16777216

最好的