File Apache Flume假脱机目录重复事件

File Apache Flume假脱机目录重复事件,file,duplicate-data,flume,File,Duplicate Data,Flume,ApacheFlume用户指南说,假脱机目录源在某些情况下可能会复制事件。 以下是文档中的行: “尽管该来源具有可靠性保证,但如果某些下游故障发生,事件仍可能重复。” 这些案例是什么?特别是如果我们使用像文件通道这样的持久通道,我看不出有任何原因会发生重复事件?您将文件通道描述为持久通道。你没有说一次也只有一次交货 Flume保证至少交付一次。失败时将重新发送批处理。这可能导致重复事件 示例:节点1正在向节点2发送事件。发送所有事件,节点2确认接收。然而。网络状况导致该消息丢失。节点2已存储该批

ApacheFlume用户指南说,假脱机目录源在某些情况下可能会复制事件。 以下是文档中的行: “尽管该来源具有可靠性保证,但如果某些下游故障发生,事件仍可能重复。”


这些案例是什么?特别是如果我们使用像文件通道这样的持久通道,我看不出有任何原因会发生重复事件?

您将文件通道描述为持久通道。你没有说一次也只有一次交货

Flume保证至少交付一次。失败时将重新发送批处理。这可能导致重复事件


示例:节点1正在向节点2发送事件。发送所有事件,节点2确认接收。然而。网络状况导致该消息丢失。节点2已存储该批,但节点1将重新发送该批。因此,重复事件。

您好,我将接受您的正确答案。但还有一点,如果我使用单个代理/节点,那么我认为不可能产生重复事件,因为通道和接收器以事务方式运行?写入接收器(数据库、HDFS)等的失败也会回滚。如果您确信水槽在发生故障时总是正确地回滚,那么您可能会没事。您还可以从客户端回滚到代理,这可能会产生重复。