Jdbc Spark 1.6.2:产生意外结果的重复数据
我使用dropDuplicates方法删除dataframe中A列和B列的duplicates条目。我将生成的数据框保存到空sql表中,主键位于列A和B上。有时,新的数据框在列A和B上有重复的值Jdbc Spark 1.6.2:产生意外结果的重复数据,jdbc,apache-spark,dataframe,Jdbc,Apache Spark,Dataframe,我使用dropDuplicates方法删除dataframe中A列和B列的duplicates条目。我将生成的数据框保存到空sql表中,主键位于列A和B上。有时,新的数据框在列A和B上有重复的值 newdf = df.dropDuplicates(Seq("A", "B")) newdf.write.mode("append").jdbc(url,table,prop) 因此,在插入到表中时,我得到了java.sql.BatchUpdateException:Duplicate entry异
newdf = df.dropDuplicates(Seq("A", "B"))
newdf.write.mode("append").jdbc(url,table,prop)
因此,在插入到表中时,我得到了java.sql.BatchUpdateException:Duplicate entry异常
删除重复项不是要删除列A和B上的所有重复项吗?我如何使用try catch下的批处理操作,以便在一个批处理操作失败时,另一个批处理操作继续进行,而不是整个作业失败
dropDuplicates
从当前数据集中删除重复项,但使用append
writer模式。无法保证数据集不包含表中已存在的重复数据。我正在将当前数据集附加到一个空表中。我使用append作为writer模式将数据追加到一个空表中,其中包含已创建的所有索引。