使用flume在Mysql和hdfs之间复制?

使用flume在Mysql和hdfs之间复制?,mysql,hadoop,hdfs,flume,Mysql,Hadoop,Hdfs,Flume,当我们使用Flume从mysql数据库获取实时流媒体数据时,是否会出现重复现象? flume如何在hdfs上创建的表中存储实时数据 查看日志图像 您可以看到,当Flume操作看到一个新的表条目时,id>X会不断增加X的值 Flume(应该)在内部维护代理文件系统上以前使用的ID值您知道mysql事务日志吗?你观察过重复的吗?为什么要标记sqoop?是的,我知道日志。但如果我有任何重复,那又怎么样。我的观点是,Flume不负责删除重复,如果你试图这样使用它,那么它个人认为你使用了错误的工具。如果您

当我们使用Flume从mysql数据库获取实时流媒体数据时,是否会出现重复现象?
flume如何在hdfs上创建的表中存储实时数据

查看日志图像

您可以看到,当Flume操作看到一个新的表条目时,
id>X
会不断增加X的值


Flume(应该)在内部维护代理文件系统上以前使用的ID值

您知道mysql事务日志吗?你观察过重复的吗?为什么要标记sqoop?是的,我知道日志。但如果我有任何重复,那又怎么样。我的观点是,Flume不负责删除重复,如果你试图这样使用它,那么它个人认为你使用了错误的工具。如果您想流式传输数据,可以使用Debezium将表转换为事务更新流(这意味着所有事件都是基于时间的唯一事件),Flume没有现成的JDBC源代码,因此我建议改用Kafka JDBC Connect(假设您有Kafka)。卡夫卡连接也会写入HDFS。。。或者Hadoop不是一个热气腾腾的工具,将其视为一个是错误的,所以请使用每小时一次的Sqoop TaskSokk…..谢谢…..我只是不明白为什么/如何使用Flume,而我个人在Flume文档中没有看到这个用例