Jdbc Spark 1.6.2：产生意外结果的重复数据_Jdbc_Apache Spark_Dataframe

Jdbc Spark 1.6.2：产生意外结果的重复数据

jdbc apache-spark dataframe

Jdbc Spark 1.6.2：产生意外结果的重复数据,jdbc,apache-spark,dataframe,Jdbc,Apache Spark,Dataframe,我使用dropDuplicates方法删除dataframe中A列和B列的duplicates条目。我将生成的数据框保存到空sql表中，主键位于列A和B上。有时，新的数据框在列A和B上有重复的值 newdf = df.dropDuplicates(Seq("A", "B")) newdf.write.mode("append").jdbc(url,table,prop) 因此，在插入到表中时，我得到了java.sql.BatchUpdateException:Duplicate entry异

我使用dropDuplicates方法删除dataframe中A列和B列的duplicates条目。我将生成的数据框保存到空sql表中，主键位于列A和B上。有时，新的数据框在列A和B上有重复的值

newdf = df.dropDuplicates(Seq("A", "B"))
newdf.write.mode("append").jdbc(url,table,prop)

因此，在插入到表中时，我得到了java.sql.BatchUpdateException:Duplicate entry异常

删除重复项不是要删除列A和B上的所有重复项吗？我如何使用try catch下的批处理操作，以便在一个批处理操作失败时，另一个批处理操作继续进行，而不是整个作业失败

dropDuplicates

从当前数据集中删除重复项，但使用

append

writer模式。无法保证数据集不包含表中已存在的重复数据。

我正在将当前数据集附加到一个空表中。我使用append作为writer模式将数据追加到一个空表中，其中包含已创建的所有索引。