使用java将巨大的本地文件移动到HDFS

使用java将巨大的本地文件移动到HDFS,java,hadoop,hdfs,Java,Hadoop,Hdfs,我在本地文件系统中存储了大约2000万个文件,每个文件5k代表一条推特 此文件存储为以下内容: /home/username/tweets/$tag/$year/$month/$day/$tweetid.txt 示例1:/home/username/tweets/SCP/2014/04/11/9989443342233.txt 示例1:/home/username/tweets/WDR/2014/02/08/5890321764568.txt 因此,是否可以编写一个map reduce java

我在本地文件系统中存储了大约2000万个文件,每个文件5k代表一条推特

此文件存储为以下内容:

/home/username/tweets/$tag/$year/$month/$day/$tweetid.txt

示例1:/home/username/tweets/SCP/2014/04/11/9989443342233.txt

示例1:/home/username/tweets/WDR/2014/02/08/5890321764568.txt

因此,是否可以编写一个map reduce java程序,根据标记将某个标记下的所有tweet移动到HDFS中的单个目录中

有类似的例子吗?

如中所示


首先创建sequencefile,然后将其上载到HDFS。

最好的方法是使用copyFromLocal将其复制到HDFS,然后使用Apache Hive或其他大数据工具进行处理。