如何检索hadoop作业映射/减少输入/输出计数

如何检索hadoop作业映射/减少输入/输出计数,hadoop,Hadoop,在运行hadoop作业后,有没有办法检索和打印reduce输出记录的数量? 我正在迭代运行map reduce,当我以前的reduce输出计数与当前的map输出计数相同时,我想停止运行。根据您的Hadoop版本,名称可能会有所不同。 但一般来说,您可以从作业对象访问计数器 job.getCounters().findCounter("org.apache.hadoop.mapred.Task$Counter", "REDUCE_OUTPUT_RECORDS").getVa

在运行hadoop作业后,有没有办法检索和打印reduce输出记录的数量?
我正在迭代运行map reduce,当我以前的reduce输出计数与当前的map输出计数相同时,我想停止运行。

根据您的Hadoop版本,名称可能会有所不同。 但一般来说,您可以从作业对象访问计数器

job.getCounters().findCounter("org.apache.hadoop.mapred.Task$Counter", 
           "REDUCE_OUTPUT_RECORDS").getValue();

请查阅WebUI,查看作业中定义了哪些计数器,并相应地更改名称。

我可以在python中使用相同的计数器吗?完全取决于如何从python提交作业?如何使用python在Hadoop流媒体中读取计数器?在Internet上找不到任何信息。