Hadoop 可以在Apache Flume中加入很多文件吗?

Hadoop 可以在Apache Flume中加入很多文件吗?,hadoop,flume,Hadoop,Flume,我们的服务器每时每刻都会收到大量文件。文件的大小非常小。大约10MB。我们的管理层希望使用Hadoop集群来分析和存储这些文件。但是在hadoop中存储小文件是无效的。hadoop或Flume中是否有加入(生成一个大文件)此文件的选项? 非常感谢你的帮助 我想到的是: 1) 使用Flume的“假脱机目录源”。此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。 将文件写入该目录 2) 使用水槽所需的任何通道:“内存”或“文件”。两者都有优点和缺点 3) 使用HDFS接收器写入HDF

我们的服务器每时每刻都会收到大量文件。文件的大小非常小。大约10MB。我们的管理层希望使用Hadoop集群来分析和存储这些文件。但是在hadoop中存储小文件是无效的。hadoop或Flume中是否有加入(生成一个大文件)此文件的选项?
非常感谢你的帮助

我想到的是:
1) 使用Flume的“假脱机目录源”。此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。 将文件写入该目录

2) 使用水槽所需的任何通道:“内存”或“文件”。两者都有优点和缺点

3) 使用HDFS接收器写入HDFS

“假脱机目录源”将在接收(或选择性删除)后重命名该文件。数据也可以在崩溃或重启后保存。 以下是文档:

数据的来源是什么?Flume和Nifi都可以用来合并文件内容,是的。。。或者,您可以直接获取小文件,然后使用Pig或Spark从这些文件中生成更大的文件。您可以插入这些文件的解析逻辑。