Hadoop 控制和监控纱线中同时映射/减少任务的数量

Hadoop 控制和监控纱线中同时映射/减少任务的数量,hadoop,mapreduce,yarn,Hadoop,Mapreduce,Yarn,我在少数功能强大的机器上部署了Hadoop 2.2集群。我有一个限制,使用纱线作为框架,我不是很熟悉 如何控制实际映射的数量并减少并行运行的任务?每台机器都有许多CPU核(12-32)和足够的RAM。我想最大限度地利用它们 我如何监控我的设置是否确实提高了机器的利用率?我在哪里可以检查给定作业期间使用了多少内核(线程、进程) 提前感谢您帮助我融化这些机器:) Hortonworks提供了一个关于纱线的配置 您可以在服务器中分析作业。通常可以在端口19888上找到它。并且对于集群利用率的测量也是非

我在少数功能强大的机器上部署了Hadoop 2.2集群。我有一个限制,使用纱线作为框架,我不是很熟悉

  • 如何控制实际映射的数量并减少并行运行的任务?每台机器都有许多CPU核(12-32)和足够的RAM。我想最大限度地利用它们
  • 我如何监控我的设置是否确实提高了机器的利用率?我在哪里可以检查给定作业期间使用了多少内核(线程、进程)
  • 提前感谢您帮助我融化这些机器:)

  • Hortonworks提供了一个关于纱线的配置
  • 您可以在服务器中分析作业。通常可以在端口19888上找到它。并且对于集群利用率的测量也是非常好的
  • 1.
    在MR1中,mapred.tasktracker.map.tasks.max和mapred.tasktracker.reduce.tasks.max属性决定了每个tasktracker的map和reduce插槽数量

    这些特性不再存在于纱线中。相反,Thread使用warn.nodemanager.resource.memory-mb和warn.nodemanager.resource.cpu-vcores控制每个节点上的内存和cpu量,这两个节点都可用于映射和压缩

    本质上:
    纱线没有任务跟踪器,只有普通的节点管理器。因此,没有更多的贴图插槽,并减少插槽分离。一切都取决于使用/需要的内存量

    二,

    使用web UI,您可以获得许多监控/管理类信息:

    名称节点-http://:50070/
    资源管理器-http://:8088/

    此外,Apache Ambari的目的是:

    和色调,以多种方式与Hadoop/纱线集群连接: 我也有同样的问题, 为了增加映射器的数量,建议减小输入分割的大小(每个输入分割由映射器和容器处理)。我不知道怎么做

    事实上,hadoop 2.2/Thread没有考虑以下任何设置

    <property>
        <name>mapreduce.input.fileinputformat.split.minsize</name>
        <value>1</value>
    </property>
    <property>
        <name>mapreduce.input.fileinputformat.split.maxsize</name>
        <value>16777216</value>
    </property>
    
    <property>
        <name>mapred.min.split.size</name>
        <value>1</value>
    </property>
    <property>
        <name>mapred.max.split.size</name>
        <value>16777216</value>
    </property> 
    
    
    mapreduce.input.fileinputformat.split.minsize
    1.
    mapreduce.input.fileinputformat.split.maxsize
    16777216
    mapred.min.split.size
    1.
    mapred.max.split.size
    16777216
    
    最好的