Hadoop 可以在Apache Flume中加入很多文件吗？_Hadoop_Flume

Hadoop 可以在Apache Flume中加入很多文件吗？

hadoop

Hadoop 可以在Apache Flume中加入很多文件吗？,hadoop,flume,Hadoop,Flume,我们的服务器每时每刻都会收到大量文件。文件的大小非常小。大约10MB。我们的管理层希望使用Hadoop集群来分析和存储这些文件。但是在hadoop中存储小文件是无效的。hadoop或Flume中是否有加入（生成一个大文件）此文件的选项？非常感谢你的帮助我想到的是： 1）使用Flume的“假脱机目录源”。此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。将文件写入该目录 2）使用水槽所需的任何通道：“内存”或“文件”。两者都有优点和缺点 3）使用HDFS接收器写入HDF

我们的服务器每时每刻都会收到大量文件。文件的大小非常小。大约10MB。我们的管理层希望使用Hadoop集群来分析和存储这些文件。但是在hadoop中存储小文件是无效的。hadoop或Flume中是否有加入（生成一个大文件）此文件的选项？

非常感谢你的帮助

我想到的是：
1）使用Flume的“假脱机目录源”。此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。将文件写入该目录

2）使用水槽所需的任何通道：“内存”或“文件”。两者都有优点和缺点

3）使用HDFS接收器写入HDFS

“假脱机目录源”将在接收（或选择性删除）后重命名该文件。数据也可以在崩溃或重启后保存。以下是文档：

数据的来源是什么？Flume和Nifi都可以用来合并文件内容，是的。。。或者，您可以直接获取小文件，然后使用Pig或Spark从这些文件中生成更大的文件。您可以插入这些文件的解析逻辑。