Python 是否可以在map reduce过程中可视化mapper结果?
在文件部分-00000中,我们可以找到所有过程的结果(map+reduce),但我希望看到第一步(map)的结果,然后是整个结果Python 是否可以在map reduce过程中可视化mapper结果?,python,hadoop,dictionary,cloudera,reduce,Python,Hadoop,Dictionary,Cloudera,Reduce,在文件部分-00000中,我们可以找到所有过程的结果(map+reduce),但我希望看到第一步(map)的结果,然后是整个结果 我正在使用python map reduce脚本开发Hadoop Cloudera。我猜您想要输出map的结果或map的过程,一个解决方案是将map的结果输出到stderr。 前任: 如果是python: import sys print >> sys.stderr, "result of map" 如果是外壳: echo -e "result of m
我正在使用python map reduce脚本开发Hadoop Cloudera。我猜您想要输出map的结果或map的过程,一个解决方案是将map的结果输出到stderr。 前任: 如果是python:
import sys
print >> sys.stderr, "result of map"
如果是外壳:
echo -e "result of map" >&2
然后,您可以在hadoop作业日志中看到map的结果,如果这只是为了进行初步分析,以了解数据和键,那么您可能希望将Reducer count设置为0并获得map的输出。
-D mapred.reduce.tasks=0在java中是一种方法,在Python中也是如此。是的,这是我想要的,但我没有找到hadoop作业日志作为默认日志,日志将在命令窗口中打印,您可以找到跟踪url,在浏览器中打开它,您将得到包含sys.stdout、sys.stderr、syslog的日志