Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop SPRING XD-HDFS接收器中存在重复条目_Hadoop_Spring Xd - Fatal编程技术网

Hadoop SPRING XD-HDFS接收器中存在重复条目

Hadoop SPRING XD-HDFS接收器中存在重复条目,hadoop,spring-xd,Hadoop,Spring Xd,我使用SpringXDSingleNode将数据从jdbc源(sql数据库)流式传输到HDFS中。我正在将数据输入hdfs,但它多次重复查询,并且我得到了重复的数据。我尝试了很多选择,但都不起作用。任何帮助都将不胜感激 u可以忽略udpate sql,以避免出现如下相同的数据: 您不使用jdbchdfs作业有什么原因吗?感谢您的回复,现在我正在使用jdbchdfs作业进行数据流处理。但现在它并没有承担日益增加的数据负载。每次在表中插入新行时,我都必须取消部署、部署,然后启动一个作业,该作业将创建

我使用SpringXDSingleNode将数据从jdbc源(sql数据库)流式传输到HDFS中。我正在将数据输入hdfs,但它多次重复查询,并且我得到了重复的数据。我尝试了很多选择,但都不起作用。任何帮助都将不胜感激

u可以忽略udpate sql,以避免出现如下相同的数据:

您不使用jdbchdfs作业有什么原因吗?感谢您的回复,现在我正在使用jdbchdfs作业进行数据流处理。但现在它并没有承担日益增加的数据负载。每次在表中插入新行时,我都必须取消部署、部署,然后启动一个作业,该作业将创建一个新文件,其中包含整个表数据以及新插入的行。我尝试过使用不同的查询和选项,但没有达到任何目的。我想将新插入的数据写入同一个文件,直到它被滚动。它还将有助于访问实时数据。啊。不幸的是,jdbchdfs作业当前不支持增量加载。它在我们的路线图上,可能会在下一个版本中。不幸的是,对于这个功能,我只需要复制当前的jdbchdfs作业并添加增量功能,这样当下一个版本可用时,您就可以将它们替换掉。感谢Michael的回复。在此之前,我们将探索其他一些选项以获得所需的输出。下一个版本计划何时发布?