Hadoop 控制和监控纱线中同时映射/减少任务的数量
我在少数功能强大的机器上部署了Hadoop 2.2集群。我有一个限制,使用纱线作为框架,我不是很熟悉Hadoop 控制和监控纱线中同时映射/减少任务的数量,hadoop,mapreduce,yarn,Hadoop,Mapreduce,Yarn,我在少数功能强大的机器上部署了Hadoop 2.2集群。我有一个限制,使用纱线作为框架,我不是很熟悉 如何控制实际映射的数量并减少并行运行的任务?每台机器都有许多CPU核(12-32)和足够的RAM。我想最大限度地利用它们 我如何监控我的设置是否确实提高了机器的利用率?我在哪里可以检查给定作业期间使用了多少内核(线程、进程) 提前感谢您帮助我融化这些机器:) Hortonworks提供了一个关于纱线的配置 您可以在服务器中分析作业。通常可以在端口19888上找到它。并且对于集群利用率的测量也是非
在MR1中,mapred.tasktracker.map.tasks.max和mapred.tasktracker.reduce.tasks.max属性决定了每个tasktracker的map和reduce插槽数量 这些特性不再存在于纱线中。相反,Thread使用warn.nodemanager.resource.memory-mb和warn.nodemanager.resource.cpu-vcores控制每个节点上的内存和cpu量,这两个节点都可用于映射和压缩 本质上:
纱线没有任务跟踪器,只有普通的节点管理器。因此,没有更多的贴图插槽,并减少插槽分离。一切都取决于使用/需要的内存量 二, 使用web UI,您可以获得许多监控/管理类信息: 名称节点-http://:50070/
资源管理器-http://:8088/ 此外,Apache Ambari的目的是: 和色调,以多种方式与Hadoop/纱线集群连接: 我也有同样的问题, 为了增加映射器的数量,建议减小输入分割的大小(每个输入分割由映射器和容器处理)。我不知道怎么做 事实上,hadoop 2.2/Thread没有考虑以下任何设置
<property>
<name>mapreduce.input.fileinputformat.split.minsize</name>
<value>1</value>
</property>
<property>
<name>mapreduce.input.fileinputformat.split.maxsize</name>
<value>16777216</value>
</property>
<property>
<name>mapred.min.split.size</name>
<value>1</value>
</property>
<property>
<name>mapred.max.split.size</name>
<value>16777216</value>
</property>
mapreduce.input.fileinputformat.split.minsize
1.
mapreduce.input.fileinputformat.split.maxsize
16777216
mapred.min.split.size
1.
mapred.max.split.size
16777216
最好的