Hadoop MrJob花费大量时间将本地文件复制到hdfs中_Hadoop_Hdfs_Mrjob

Hadoop MrJob花费大量时间将本地文件复制到hdfs中

hadoop

Hadoop MrJob花费大量时间将本地文件复制到hdfs中,hadoop,hdfs,mrjob,Hadoop,Hdfs,Mrjob,我遇到的问题是：已经将我的input.txt（50MB）文件放入HDFS，我正在运行 python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop 看起来MrJob花了很多时间将文件复制到hdfs（又是吗？）这合乎逻辑吗？它不应该直接从HDFS使用input.txt （使用Hadoop 2.6.0版）查看hdfs:///user/myself/tmp/mrjob/test.mys

我遇到的问题是：已经将我的

input.txt

（50MB）文件放入HDFS，我正在运行

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop

看起来MrJob花了很多时间将文件复制到hdfs（又是吗？）

这合乎逻辑吗？它不应该直接从HDFS使用

input.txt

（使用Hadoop 2.6.0版）

查看

hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/

您将看到，

input.txt

不是要复制到HDFS中的文件

复制的是mrjob的整个python目录，这样就可以在每个节点上解包。（mrjob假设集群中的每个节点上都没有安装mrjob。）

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/