计算Reducer hadoop所用的时间

计算Reducer hadoop所用的时间,hadoop,mapreduce,Hadoop,Mapreduce,我正在单节点集群中运行Hadoop 2.7.3中的MapReduce作业。如何计算地图所花费的时间并减少此工作的任务 已解决 以防它帮助任何人谁看到这个问题或面临类似的问题。 感谢@Shubham的回答和我做的一些研究: hadoop 2中的作业跟踪器已被删除。它被分为资源管理器和应用程序主机 要访问资源管理器,请在浏览器中键入URL“” 要访问作业历史记录服务器(查看已完成的应用程序和作业的统计信息),请在浏览器中键入URL“” 尝试访问作业历史记录服务器时可能会遇到错误。它可能表明应用程序没

我正在单节点集群中运行Hadoop 2.7.3中的MapReduce作业。如何计算地图所花费的时间并减少此工作的任务

已解决 以防它帮助任何人谁看到这个问题或面临类似的问题。 感谢@Shubham的回答和我做的一些研究:

  • hadoop 2中的作业跟踪器已被删除。它被分为资源管理器和应用程序主机
  • 要访问资源管理器,请在浏览器中键入URL“”
  • 要访问作业历史记录服务器(查看已完成的应用程序和作业的统计信息),请在浏览器中键入URL“”
  • 尝试访问作业历史记录服务器时可能会遇到错误。它可能表明应用程序没有历史记录。在这种情况下,请执行以下步骤:

  • 更改bashrc文件
  • 步骤:

    i. In your terminal, type "nano ~/.bashrc"
    ii. Now in this file, where the other hadoop variables are written add the line
        export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
    iii. Exit out of nano and save the file.
    iv. Run the command "source ~/.bashrc"
    
    i. Run the command in your terminal
    $HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
    ii. Then run the command 
        jps
    You should be able to see the "JobHistoryServer" in the list
    iii. Now run the command
    netstat -ntlp | grep 19888
    
    一,。要启动作业历史记录服务器

    步骤:

    i. In your terminal, type "nano ~/.bashrc"
    ii. Now in this file, where the other hadoop variables are written add the line
        export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
    iii. Exit out of nano and save the file.
    iv. Run the command "source ~/.bashrc"
    
    i. Run the command in your terminal
    $HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
    ii. Then run the command 
        jps
    You should be able to see the "JobHistoryServer" in the list
    iii. Now run the command
    netstat -ntlp | grep 19888
    

    您可以转到jobtracker(默认情况下在端口50030上运行)并检查作业详细信息。它显示映射时间和缩短时间的计数器。此外,如果您对单个任务感兴趣,您可以按照“分析此作业”链接进行操作,该链接显示了性能最佳和最差的任务。

    点击资源管理器的web UI()。通常,web端口是8088。您可以点击此按钮。
    在那里,您可以找到处于各种状态的所有应用程序的链接,如启动、运行、失败、成功等
    单击每个应用程序的链接将为您提供有关该任务的所有统计信息(如容器数量(mapreduce中的映射器/还原器)、使用的内存/vCore、运行时间和更多统计信息)。


    ResourceManager REST API公开了许多统计信息。在此处查找这些统计信息

    在工作完成后,我还可以获取这些信息吗?只要您的工作跟踪器维护历史记录,您就应该能够看到这些信息。但是我不确定控制历史的conifugration是什么。web UI在作业完成后关闭。有没有什么方法可以让我在工作结束后获得我可以访问的信息(可能在一些日志文件中)completed@alpha你是如何将作业提交到集群的?我目前正在使用Hadoop流媒体和Python,但我计划转而编写Java代码@Shubham@alpha好啊只需在您的系统上启动并运行hadoop单节点集群,然后使用命令行或任何机制向其提交作业。然后,即使作业完成,web UI也不会像您提到的那样关闭。