使用java将巨大的本地文件移动到HDFS_Java_Hadoop_Hdfs

使用java将巨大的本地文件移动到HDFS

java hadoop

使用java将巨大的本地文件移动到HDFS,java,hadoop,hdfs,Java,Hadoop,Hdfs,我在本地文件系统中存储了大约2000万个文件，每个文件5k代表一条推特此文件存储为以下内容： /home/username/tweets/$tag/$year/$month/$day/$tweetid.txt 示例1:/home/username/tweets/SCP/2014/04/11/9989443342233.txt 示例1:/home/username/tweets/WDR/2014/02/08/5890321764568.txt 因此，是否可以编写一个map reduce java

我在本地文件系统中存储了大约2000万个文件，每个文件5k代表一条推特

此文件存储为以下内容：

/home/username/tweets/$tag/$year/$month/$day/$tweetid.txt

示例1:/home/username/tweets/SCP/2014/04/11/9989443342233.txt

示例1:/home/username/tweets/WDR/2014/02/08/5890321764568.txt

因此，是否可以编写一个map reduce java程序，根据标记将某个标记下的所有tweet移动到HDFS中的单个目录中

有类似的例子吗？

如中所示

首先创建sequencefile，然后将其上载到HDFS。

最好的方法是使用copyFromLocal将其复制到HDFS，然后使用Apache Hive或其他大数据工具进行处理。