计算Reducer hadoop所用的时间
我正在单节点集群中运行Hadoop 2.7.3中的MapReduce作业。如何计算地图所花费的时间并减少此工作的任务 已解决 以防它帮助任何人谁看到这个问题或面临类似的问题。 感谢@Shubham的回答和我做的一些研究:计算Reducer hadoop所用的时间,hadoop,mapreduce,Hadoop,Mapreduce,我正在单节点集群中运行Hadoop 2.7.3中的MapReduce作业。如何计算地图所花费的时间并减少此工作的任务 已解决 以防它帮助任何人谁看到这个问题或面临类似的问题。 感谢@Shubham的回答和我做的一些研究: hadoop 2中的作业跟踪器已被删除。它被分为资源管理器和应用程序主机 要访问资源管理器,请在浏览器中键入URL“” 要访问作业历史记录服务器(查看已完成的应用程序和作业的统计信息),请在浏览器中键入URL“” 尝试访问作业历史记录服务器时可能会遇到错误。它可能表明应用程序没
i. In your terminal, type "nano ~/.bashrc"
ii. Now in this file, where the other hadoop variables are written add the line
export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
iii. Exit out of nano and save the file.
iv. Run the command "source ~/.bashrc"
i. Run the command in your terminal
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
ii. Then run the command
jps
You should be able to see the "JobHistoryServer" in the list
iii. Now run the command
netstat -ntlp | grep 19888
一,。要启动作业历史记录服务器
步骤:
i. In your terminal, type "nano ~/.bashrc"
ii. Now in this file, where the other hadoop variables are written add the line
export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
iii. Exit out of nano and save the file.
iv. Run the command "source ~/.bashrc"
i. Run the command in your terminal
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
ii. Then run the command
jps
You should be able to see the "JobHistoryServer" in the list
iii. Now run the command
netstat -ntlp | grep 19888
您可以转到jobtracker(默认情况下在端口50030上运行)并检查作业详细信息。它显示映射时间和缩短时间的计数器。此外,如果您对单个任务感兴趣,您可以按照“分析此作业”链接进行操作,该链接显示了性能最佳和最差的任务。点击资源管理器的web UI()。通常,web端口是8088。您可以点击此按钮。
在那里,您可以找到处于各种状态的所有应用程序的链接,如启动、运行、失败、成功等
单击每个应用程序的链接将为您提供有关该任务的所有统计信息(如容器数量(mapreduce中的映射器/还原器)、使用的内存/vCore、运行时间和更多统计信息)。
ResourceManager REST API公开了许多统计信息。在此处查找这些统计信息在工作完成后,我还可以获取这些信息吗?只要您的工作跟踪器维护历史记录,您就应该能够看到这些信息。但是我不确定控制历史的conifugration是什么。web UI在作业完成后关闭。有没有什么方法可以让我在工作结束后获得我可以访问的信息(可能在一些日志文件中)completed@alpha你是如何将作业提交到集群的?我目前正在使用Hadoop流媒体和Python,但我计划转而编写Java代码@Shubham@alpha好啊只需在您的系统上启动并运行hadoop单节点集群,然后使用命令行或任何机制向其提交作业。然后,即使作业完成,web UI也不会像您提到的那样关闭。