Hadoop 如何检查清管工作的总体进度

Hadoop 如何检查清管工作的总体进度,hadoop,apache-pig,Hadoop,Apache Pig,一个pig脚本可以被翻译成多个MR作业,我想知道是否有一个界面或一种方法可以查看整个pig脚本的进度,比如计划、执行了多少个作业等等 有一个命令说明,但它在我的部署中引发了一个异常。所以我使用另一种方法 通过使用explain命令并查看“解释”报告末尾的“物理计划”部分,可以获得有关计划多少MR作业的信息。要获取脚本的MR作业数,请执行以下操作: ./pig -e 'explain -script ./script_name.pig' > ./explain.txt grep MapRed

一个pig脚本可以被翻译成多个MR作业,我想知道是否有一个界面或一种方法可以查看整个pig脚本的进度,比如计划、执行了多少个作业等等

有一个命令说明,但它在我的部署中引发了一个异常。所以我使用另一种方法

通过使用explain命令并查看“解释”报告末尾的“物理计划”部分,可以获得有关计划多少MR作业的信息。要获取脚本的MR作业数,请执行以下操作:

./pig -e 'explain -script ./script_name.pig' > ./explain.txt
grep MapReduce ./explain.txt | wc -l
现在我们已经计划好了乔布斯先生的数量。要监视脚本执行,在运行它之前,您需要访问Hadoop的jobtracker页面(通过“http://(IP\u或\u node\u name):50030/jobtracker.jsp”),并写下上一个作业的名称(完成的作业部分)。提交脚本。刷新jobtracker页面,统计有多少个正在运行的作业,以及有多少个在您记录的作业之后完成。现在您可以知道还有多少作业需要执行。 单击每个作业并查看其统计信息和进度


一种更简单的方法是在一个小数据集上运行脚本,记下作业的数量,在脚本执行后它会显示在控制台输出上。由于pig不会更改其执行计划,因此对于大数据集也是如此。通过在Hadoop的jobtracker页面上查看每个作业的统计信息(通过“http://(IP_或节点名称):50030/jobtracker.jsp”),您可以了解每个MR作业所花费的时间比例。然后,您可以使用它来近似插值大型数据集上的执行时间。如果您有扭曲的数据和一些笛卡尔积,那么执行时间预测可能会变得棘手

有一个命令说明,但它在我的部署中引发了一个异常。所以我使用另一种方法

通过使用explain命令并查看“解释”报告末尾的“物理计划”部分,可以获得有关计划多少MR作业的信息。要获取脚本的MR作业数,请执行以下操作:

./pig -e 'explain -script ./script_name.pig' > ./explain.txt
grep MapReduce ./explain.txt | wc -l
现在我们已经计划好了乔布斯先生的数量。要监视脚本执行,在运行它之前,您需要访问Hadoop的jobtracker页面(通过“http://(IP\u或\u node\u name):50030/jobtracker.jsp”),并写下上一个作业的名称(完成的作业部分)。提交脚本。刷新jobtracker页面,统计有多少个正在运行的作业,以及有多少个在您记录的作业之后完成。现在您可以知道还有多少作业需要执行。 单击每个作业并查看其统计信息和进度


一种更简单的方法是在一个小数据集上运行脚本,记下作业的数量,在脚本执行后它会显示在控制台输出上。由于pig不会更改其执行计划,因此对于大数据集也是如此。通过在Hadoop的jobtracker页面上查看每个作业的统计信息(通过“http://(IP_或节点名称):50030/jobtracker.jsp”),您可以了解每个MR作业所花费的时间比例。然后,您可以使用它来近似插值大型数据集上的执行时间。如果您有扭曲的数据和一些笛卡尔积,那么执行时间预测可能会变得棘手

我们在Twitter上也遇到了同样的问题,因为我们的一些Pig脚本产生了几十个Map-Reduce作业,有时很难判断他们中的哪一个在做什么,计划效率的原因,理解有多少将并行运行,等等

因此我们创建了Twitter Ambrose:


它启动了一个小型jetty服务器,它为您提供了一个漂亮的web ui,显示作业DAG,在作业完成时为节点着色,提供作业的统计信息,并告诉您每个作业试图计算的关系

我们在Twitter上也遇到了同样的问题,因为我们的一些Pig脚本产生了几十个Map-Reduce作业,有时很难判断他们中的哪一个在做什么,计划效率的原因,理解有多少将并行运行,等等

因此我们创建了Twitter Ambrose:

它启动了一个小型jetty服务器,它为您提供了一个漂亮的web ui,显示作业DAG,在作业完成时为节点着色,提供作业的统计信息,并告诉您每个作业试图计算的关系