Hadoop 完全满载不';复印件';存储文件而不是';切割';

Hadoop 完全满载不';复印件';存储文件而不是';切割';,hadoop,mapreduce,hbase,hdfs,Hadoop,Mapreduce,Hbase,Hdfs,我使用HBase complete bulk load将ImportTsv的输出传输到HBase中的一个表中,我注意到它复制了输出而不是剪切。对于我的千兆字节数据,这需要很长时间 在HBase文档()中,我读到文件将被移动而不是复制。有人能帮我吗 我使用Hbase 0.94.11和Hadoop 1.2.1。bulkload文件系统 输出目录和hbase群集也是相同的 我还使用HFileOutputFormat编写了一个MapReduce作业。当我使用LoadIncrementalHFiles将作

我使用HBase complete bulk load将ImportTsv的输出传输到HBase中的一个表中,我注意到它复制了输出而不是剪切。对于我的千兆字节数据,这需要很长时间

在HBase文档()中,我读到文件将被移动而不是复制。有人能帮我吗

我使用Hbase 0.94.11和Hadoop 1.2.1。bulkload文件系统 输出目录和hbase群集也是相同的

我还使用HFileOutputFormat编写了一个MapReduce作业。当我使用LoadIncrementalHFiles将作业的输出移动到HBase表时,它仍然复制而不是剪切


我注意到区域服务器日志中有以下行,这导致复制而不是剪切:

区域服务器日志 文件hdfs://master.mydomain/user/cluster/mbe/output/fam/8a6f322894784c9c9802e5b295025ee0 在不同于目标存储的文件系统上-移动到此文件系统。 已复制到dst文件系统上的临时路径:hdfs://master.mydomain:8020/hbase/MBE/fd9eab14bf12d1b44ea77aa3d1fc1b31/.tmp/d63966b6d5fa487f88426552d1ca43f4 移动文件hdfs://master.mydomain:8020/hbase/MBE/fd9eab14bf12d1b44ea77aa3d1fc1b31/.tmp/d63966b6d5fa487f88426552d1ca43f4 进入存储目录hdfs://master.mydomain:8020/hbase/MBE/fd9eab14bf12d1b44ea77aa3d1fc1b31/fam -正在更新存储文件列表

解决方案 这表明源和目标存储文件位于不同的文件系统上,但它们都位于相同的HDF上

当我使用“hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles”时hdfs://master.mydomain:8020/user/cluster/mbe/output MBE”而不是“hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles MBE/output MBE”,问题得到解决

这个问题是通过使用端口号的绝对寻址而不是相对寻址来解决的

有关更多详细信息,请参阅