Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Jdbc Spark 1.6.2:产生意外结果的重复数据_Jdbc_Apache Spark_Dataframe - Fatal编程技术网

Jdbc Spark 1.6.2:产生意外结果的重复数据

Jdbc Spark 1.6.2:产生意外结果的重复数据,jdbc,apache-spark,dataframe,Jdbc,Apache Spark,Dataframe,我使用dropDuplicates方法删除dataframe中A列和B列的duplicates条目。我将生成的数据框保存到空sql表中,主键位于列A和B上。有时,新的数据框在列A和B上有重复的值 newdf = df.dropDuplicates(Seq("A", "B")) newdf.write.mode("append").jdbc(url,table,prop) 因此,在插入到表中时,我得到了java.sql.BatchUpdateException:Duplicate entry异

我使用dropDuplicates方法删除dataframe中A列和B列的duplicates条目。我将生成的数据框保存到空sql表中,主键位于列A和B上。有时,新的数据框在列A和B上有重复的值

newdf = df.dropDuplicates(Seq("A", "B"))
newdf.write.mode("append").jdbc(url,table,prop) 
因此,在插入到表中时,我得到了java.sql.BatchUpdateException:Duplicate entry异常


删除重复项不是要删除列A和B上的所有重复项吗?我如何使用try catch下的批处理操作,以便在一个批处理操作失败时,另一个批处理操作继续进行,而不是整个作业失败

dropDuplicates
从当前数据集中删除重复项,但使用
append
writer模式。无法保证数据集不包含表中已存在的重复数据。

我正在将当前数据集附加到一个空表中。我使用append作为writer模式将数据追加到一个空表中,其中包含已创建的所有索引。