计算Reducer hadoop所用的时间_Hadoop_Mapreduce

计算Reducer hadoop所用的时间

hadoop mapreduce

计算Reducer hadoop所用的时间,hadoop,mapreduce,Hadoop,Mapreduce,我正在单节点集群中运行Hadoop 2.7.3中的MapReduce作业。如何计算地图所花费的时间并减少此工作的任务已解决以防它帮助任何人谁看到这个问题或面临类似的问题。感谢@Shubham的回答和我做的一些研究： hadoop 2中的作业跟踪器已被删除。它被分为资源管理器和应用程序主机要访问资源管理器，请在浏览器中键入URL“” 要访问作业历史记录服务器（查看已完成的应用程序和作业的统计信息），请在浏览器中键入URL“” 尝试访问作业历史记录服务器时可能会遇到错误。它可能表明应用程序没

我正在单节点集群中运行Hadoop 2.7.3中的MapReduce作业。如何计算地图所花费的时间并减少此工作的任务

已解决 以防它帮助任何人谁看到这个问题或面临类似的问题。感谢@Shubham的回答和我做的一些研究：

hadoop 2中的作业跟踪器已被删除。它被分为资源管理器和应用程序主机

要访问资源管理器，请在浏览器中键入URL“”

要访问作业历史记录服务器（查看已完成的应用程序和作业的统计信息），请在浏览器中键入URL“”

尝试访问作业历史记录服务器时可能会遇到错误。它可能表明应用程序没有历史记录。在这种情况下，请执行以下步骤：

更改bashrc文件

步骤：

i. In your terminal, type "nano ~/.bashrc"
ii. Now in this file, where the other hadoop variables are written add the line
    export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
iii. Exit out of nano and save the file.
iv. Run the command "source ~/.bashrc"

i. Run the command in your terminal
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
ii. Then run the command 
    jps
You should be able to see the "JobHistoryServer" in the list
iii. Now run the command
netstat -ntlp | grep 19888

一,。要启动作业历史记录服务器

步骤：

i. In your terminal, type "nano ~/.bashrc"
ii. Now in this file, where the other hadoop variables are written add the line
    export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
iii. Exit out of nano and save the file.
iv. Run the command "source ~/.bashrc"

i. Run the command in your terminal
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
ii. Then run the command 
    jps
You should be able to see the "JobHistoryServer" in the list
iii. Now run the command
netstat -ntlp | grep 19888

您可以转到jobtracker（默认情况下在端口50030上运行）并检查作业详细信息。它显示映射时间和缩短时间的计数器。此外，如果您对单个任务感兴趣，您可以按照“分析此作业”链接进行操作，该链接显示了性能最佳和最差的任务。

点击资源管理器的web UI（）。通常，web端口是8088。您可以点击此按钮。
在那里，您可以找到处于各种状态的所有应用程序的链接，如启动、运行、失败、成功等
单击每个应用程序的链接将为您提供有关该任务的所有统计信息（如容器数量（mapreduce中的映射器/还原器）、使用的内存/vCore、运行时间和更多统计信息）。

ResourceManager REST API公开了许多统计信息。在此处查找这些统计信息

在工作完成后，我还可以获取这些信息吗？只要您的工作跟踪器维护历史记录，您就应该能够看到这些信息。但是我不确定控制历史的conifugration是什么。web UI在作业完成后关闭。有没有什么方法可以让我在工作结束后获得我可以访问的信息（可能在一些日志文件中）completed@alpha你是如何将作业提交到集群的？我目前正在使用Hadoop流媒体和Python，但我计划转而编写Java代码@Shubham@alpha好啊只需在您的系统上启动并运行hadoop单节点集群，然后使用命令行或任何机制向其提交作业。然后，即使作业完成，web UI也不会像您提到的那样关闭。