Hadoop SPRING XD-HDFS接收器中存在重复条目
我使用SpringXDSingleNode将数据从jdbc源(sql数据库)流式传输到HDFS中。我正在将数据输入hdfs,但它多次重复查询,并且我得到了重复的数据。我尝试了很多选择,但都不起作用。任何帮助都将不胜感激 u可以忽略udpate sql,以避免出现如下相同的数据:Hadoop SPRING XD-HDFS接收器中存在重复条目,hadoop,spring-xd,Hadoop,Spring Xd,我使用SpringXDSingleNode将数据从jdbc源(sql数据库)流式传输到HDFS中。我正在将数据输入hdfs,但它多次重复查询,并且我得到了重复的数据。我尝试了很多选择,但都不起作用。任何帮助都将不胜感激 u可以忽略udpate sql,以避免出现如下相同的数据: 您不使用jdbchdfs作业有什么原因吗?感谢您的回复,现在我正在使用jdbchdfs作业进行数据流处理。但现在它并没有承担日益增加的数据负载。每次在表中插入新行时,我都必须取消部署、部署,然后启动一个作业,该作业将创建
您不使用jdbchdfs作业有什么原因吗?感谢您的回复,现在我正在使用jdbchdfs作业进行数据流处理。但现在它并没有承担日益增加的数据负载。每次在表中插入新行时,我都必须取消部署、部署,然后启动一个作业,该作业将创建一个新文件,其中包含整个表数据以及新插入的行。我尝试过使用不同的查询和选项,但没有达到任何目的。我想将新插入的数据写入同一个文件,直到它被滚动。它还将有助于访问实时数据。啊。不幸的是,jdbchdfs作业当前不支持增量加载。它在我们的路线图上,可能会在下一个版本中。不幸的是,对于这个功能,我只需要复制当前的jdbchdfs作业并添加增量功能,这样当下一个版本可用时,您就可以将它们替换掉。感谢Michael的回复。在此之前,我们将探索其他一些选项以获得所需的输出。下一个版本计划何时发布?