Python &引用；“文本文件忙”；Hadoop流作业执行中的映射器错误_Python_Hadoop_Mapreduce_Streaming

Python &引用；“文本文件忙”；Hadoop流作业执行中的映射器错误

python hadoop mapreduce streaming

Python &引用；“文本文件忙”；Hadoop流作业执行中的映射器错误,python,hadoop,mapreduce,streaming,Python,Hadoop,Mapreduce,Streaming,我有一个应用程序，它可以创建每行一行的文本文件，并将其转储到hdfs。这个位置又被用作hadoop流作业的输入目录我们的期望是映射程序的数量将等于“输入文件分割”，这与我的情况下的文件数量相同。关于所有映射程序如何不被触发，我在流输出转储中看到一个奇怪的问题：原因：java.io.IOException:无法运行程序“/mnt/var/lib/hadoop/tmp/nm local dir/usercache/hadoop/appcache/application\u 1411140750

我有一个应用程序，它可以创建每行一行的文本文件，并将其转储到hdfs。这个位置又被用作hadoop流作业的输入目录

我们的期望是映射程序的数量将等于“输入文件分割”，这与我的情况下的文件数量相同。关于所有映射程序如何不被触发，我在流输出转储中看到一个奇怪的问题：

原因：java.io.IOException:无法运行程序“/mnt/var/lib/hadoop/tmp/nm local dir/usercache/hadoop/appcache/application\u 1411140750872\u 0001/container\u 1411140750872\u 0001\u 01\u 000336//CODE/python\u mapper\u unix.py”：错误=26，文本文件繁忙

“python_mapper.py”是我的映射程序文件

环境详情： 40节点aws r3.xlarge aws EMR群集[此群集上没有其他作业运行] 当这个流jar正在运行时，集群上没有其他作业在运行，因此外部进程不应该试图打开“python_mapper.py”文件

下面是streaming jar命令：

ssh-o strichhostkeychecking=no-i hadoop@hadoop jar/home/hadoop/contrib/streaming/hadoop-streaming.jar-files CODE-file CODE/configuration.conf-mapper CODE/python_mapper.py-input/user/hadoop/launchildworker/input/1-output/user/hadoop/launchildworker/out1-numReduceTasks 0能否尝试停止所有守护进程是否先使用“全部停止”，然后在重新启动守护程序后重新运行MR作业（使用“全部启动”）

让我们看看它是否有用

感谢hadooper，但它无法解决这个问题，我不确定哪里出了问题，我转而采用了另一种方法。