Hadoop MrJob花费大量时间将本地文件复制到hdfs中

Hadoop MrJob花费大量时间将本地文件复制到hdfs中,hadoop,hdfs,mrjob,Hadoop,Hdfs,Mrjob,我遇到的问题是: 已经将我的input.txt(50MB)文件放入HDFS,我正在运行 python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop 看起来MrJob花了很多时间将文件复制到hdfs(又是吗?) 这合乎逻辑吗?它不应该直接从HDFS使用input.txt (使用Hadoop 2.6.0版)查看hdfs:///user/myself/tmp/mrjob/test.mys

我遇到的问题是: 已经将我的
input.txt
(50MB)文件放入HDFS,我正在运行

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop 
看起来MrJob花了很多时间将文件复制到hdfs(又是吗?)

这合乎逻辑吗?它不应该直接从HDFS使用
input.txt


(使用Hadoop 2.6.0版)

查看
hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/
您将看到,
input.txt
不是要复制到HDFS中的文件

复制的是mrjob的整个python目录,这样就可以在每个节点上解包。(mrjob假设集群中的每个节点上都没有安装mrjob。)

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/