Python &引用;“文本文件忙”;Hadoop流作业执行中的映射器错误

Python &引用;“文本文件忙”;Hadoop流作业执行中的映射器错误,python,hadoop,mapreduce,streaming,Python,Hadoop,Mapreduce,Streaming,我有一个应用程序,它可以创建每行一行的文本文件,并将其转储到hdfs。 这个位置又被用作hadoop流作业的输入目录 我们的期望是映射程序的数量将等于“输入文件分割”,这与我的情况下的文件数量相同。关于所有映射程序如何不被触发,我在流输出转储中看到一个奇怪的问题: 原因:java.io.IOException:无法运行程序“/mnt/var/lib/hadoop/tmp/nm local dir/usercache/hadoop/appcache/application\u 1411140750

我有一个应用程序,它可以创建每行一行的文本文件,并将其转储到hdfs。 这个位置又被用作hadoop流作业的输入目录

我们的期望是映射程序的数量将等于“输入文件分割”,这与我的情况下的文件数量相同。关于所有映射程序如何不被触发,我在流输出转储中看到一个奇怪的问题:

原因:java.io.IOException:无法运行程序“/mnt/var/lib/hadoop/tmp/nm local dir/usercache/hadoop/appcache/application\u 1411140750872\u 0001/container\u 1411140750872\u 0001\u 01\u 000336//CODE/python\u mapper\u unix.py”:错误=26,文本文件繁忙

“python_mapper.py”是我的映射程序文件

环境详情: 40节点aws r3.xlarge aws EMR群集[此群集上没有其他作业运行] 当这个流jar正在运行时,集群上没有其他作业在运行,因此外部进程不应该试图打开“python_mapper.py”文件

下面是streaming jar命令:


ssh-o strichhostkeychecking=no-i hadoop@hadoop jar/home/hadoop/contrib/streaming/hadoop-streaming.jar-files CODE-file CODE/configuration.conf-mapper CODE/python_mapper.py-input/user/hadoop/launchildworker/input/1-output/user/hadoop/launchildworker/out1-numReduceTasks 0能否尝试停止所有守护进程是否先使用“全部停止”,然后在重新启动守护程序后重新运行MR作业(使用“全部启动”)


让我们看看它是否有用

感谢hadooper,但它无法解决这个问题,我不确定哪里出了问题,我转而采用了另一种方法。