Hadoop流式Python作业-子进程失败,代码为1
我正在尝试使用Hadoop流功能在Hadoop集群上部署一个用Python编写的算法。当我尝试“本地”执行它时,使用以下语法Hadoop流式Python作业-子进程失败,代码为1,python,hadoop,hadoop-streaming,Python,Hadoop,Hadoop Streaming,我正在尝试使用Hadoop流功能在Hadoop集群上部署一个用Python编写的算法。当我尝试“本地”执行它时,使用以下语法 cat poi/* | ./mapper_paths.py | ./combiner_paths.py | ./reducer_paths.py 它的工作方式很有魅力,但当我尝试使用以下语法在集群上部署它时 hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar -input /
cat poi/* | ./mapper_paths.py | ./combiner_paths.py | ./reducer_paths.py
它的工作方式很有魅力,但当我尝试使用以下语法在集群上部署它时
hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar -input /poi -output /poi_outXXX -combiner "/root/combiner_paths.py" -mapper "/root/mapper_paths.py" -reducer "/root/reducer_paths.py"
它没有说
错误:java.lang.RuntimeException:PipeMapRed.waitOutputThreads():子进程失败,代码为1
(是完整日志)
现在,我无法访问Python错误日志,可能是因为集群是如何部署的(我使用Docker容器),所以我无法理解错误的确切位置
以下是脚本:||
提前感谢您的帮助 请在问题中包含代码和错误