Hadoop Flume用例-将数据从只读文件夹推送到HDFS

Hadoop Flume用例-将数据从只读文件夹推送到HDFS,hadoop,rsync,flume-ng,Hadoop,Rsync,Flume Ng,我正在寻找一种使用flume将日志数据从只读文件夹推送到hdfs的方法。正如我所知,flume spoolDir需要写访问权限来更改完成后的文件名,因此我想创建一个临时文件夹作为spoolDir,并使用rsync将文件复制到其中,然后将其用作spoolDir。 但是,据我所知,一旦flume(myfile.COMPLETED)在dest文件夹中更改了文件,rsync进程将再次复制它,对吗? 还有其他解决方案吗?另一个来源是。您可以在单个只读文件上运行tail命令并开始处理数据。不过,您必须考虑到

我正在寻找一种使用flume将日志数据从只读文件夹推送到hdfs的方法。正如我所知,flume spoolDir需要写访问权限来更改完成后的文件名,因此我想创建一个临时文件夹作为spoolDir,并使用rsync将文件复制到其中,然后将其用作spoolDir。 但是,据我所知,一旦flume(myfile.COMPLETED)在dest文件夹中更改了文件,rsync进程将再次复制它,对吗?
还有其他解决方案吗?

另一个来源是。您可以在单个只读文件上运行
tail
命令并开始处理数据。不过,您必须考虑到这是一个不可靠的源,因为将数据放入代理通道时无法从错误中恢复