Apache spark write（）生成ORA-00001 spark java_Apache Spark_Spark Streaming_Apache Spark Dataset

Apache spark write（）生成ORA-00001 spark java

apache-spark

Apache spark write（）生成ORA-00001 spark java,apache-spark,spark-streaming,apache-spark-dataset,Apache Spark,Spark Streaming,Apache Spark Dataset,只是想找出处理这种情况的最佳方法。我使用dataset.write写入oracle数据库，要求查找表中是否已经存在重复记录（不在dataset中），如果存在，则将这些重复记录写入其他表中。有没有人遇到过类似的问题？我正在编写的表是一个巨大的表，如果我在编写数据集之前从表中读取现有数据进行比较，那么成本会很高使用的savemode是append。它是一款卡夫卡流媒体应用程序，每2分钟连续传输数据一次没有UPSERT模式，因为我猜您指的是DF.write或DS.write 问题是这种重复发生的频

只是想找出处理这种情况的最佳方法。我使用dataset.write写入oracle数据库，要求查找表中是否已经存在重复记录（不在dataset中），如果存在，则将这些重复记录写入其他表中。有没有人遇到过类似的问题？我正在编写的表是一个巨大的表，如果我在编写数据集之前从表中读取现有数据进行比较，那么成本会很高

使用的savemode是append。它是一款卡夫卡流媒体应用程序，每2分钟连续传输数据一次

没有UPSERT模式，因为我猜您指的是DF.write或DS.write

问题是这种重复发生的频率有多高，为什么？如果一个人时不时地滑倒，会产生什么影响？我不希望在这种情况下发生重复的密钥冲突

如果重复插入逻辑上很少，并且有适当的基于时间的ORACLE分区限制要检查的数据量，那么您可以在DBMS端作为一个周期性的过程进行检查

因此，我不倾向于检查火花的一面。这似乎也有点违反直觉的摄入与卡夫卡和邦写出来尽快

这是一个有趣的问题，因为任何做某事的方法都有一些需要解决的问题——SPARK端的缓存、重读等

你能提供你正在使用的声明吗？你弄明白了吗？