Hadoop Flume用例-将数据从只读文件夹推送到HDFS_Hadoop_Rsync_Flume Ng

Hadoop Flume用例-将数据从只读文件夹推送到HDFS

hadoop

Hadoop Flume用例-将数据从只读文件夹推送到HDFS,hadoop,rsync,flume-ng,Hadoop,Rsync,Flume Ng,我正在寻找一种使用flume将日志数据从只读文件夹推送到hdfs的方法。正如我所知，flume spoolDir需要写访问权限来更改完成后的文件名，因此我想创建一个临时文件夹作为spoolDir，并使用rsync将文件复制到其中，然后将其用作spoolDir。但是，据我所知，一旦flume（myfile.COMPLETED）在dest文件夹中更改了文件，rsync进程将再次复制它，对吗？还有其他解决方案吗？另一个来源是。您可以在单个只读文件上运行tail命令并开始处理数据。不过，您必须考虑到

我正在寻找一种使用flume将日志数据从只读文件夹推送到hdfs的方法。正如我所知，flume spoolDir需要写访问权限来更改完成后的文件名，因此我想创建一个临时文件夹作为spoolDir，并使用rsync将文件复制到其中，然后将其用作spoolDir。但是，据我所知，一旦flume（myfile.COMPLETED）在dest文件夹中更改了文件，rsync进程将再次复制它，对吗？

还有其他解决方案吗？

另一个来源是。您可以在单个只读文件上运行

tail

命令并开始处理数据。不过，您必须考虑到这是一个不可靠的源，因为将数据放入代理通道时无法从错误中恢复