Apache spark write()生成ORA-00001 spark java
只是想找出处理这种情况的最佳方法。我使用dataset.write写入oracle数据库,要求查找表中是否已经存在重复记录(不在dataset中),如果存在,则将这些重复记录写入其他表中。有没有人遇到过类似的问题?我正在编写的表是一个巨大的表,如果我在编写数据集之前从表中读取现有数据进行比较,那么成本会很高Apache spark write()生成ORA-00001 spark java,apache-spark,spark-streaming,apache-spark-dataset,Apache Spark,Spark Streaming,Apache Spark Dataset,只是想找出处理这种情况的最佳方法。我使用dataset.write写入oracle数据库,要求查找表中是否已经存在重复记录(不在dataset中),如果存在,则将这些重复记录写入其他表中。有没有人遇到过类似的问题?我正在编写的表是一个巨大的表,如果我在编写数据集之前从表中读取现有数据进行比较,那么成本会很高 使用的savemode是append。它是一款卡夫卡流媒体应用程序,每2分钟连续传输数据一次 没有UPSERT模式,因为我猜您指的是DF.write或DS.write 问题是这种重复发生的频
使用的savemode是append。它是一款卡夫卡流媒体应用程序,每2分钟连续传输数据一次 没有UPSERT模式,因为我猜您指的是DF.write或DS.write 问题是这种重复发生的频率有多高,为什么?如果一个人时不时地滑倒,会产生什么影响?我不希望在这种情况下发生重复的密钥冲突 如果重复插入逻辑上很少,并且有适当的基于时间的ORACLE分区限制要检查的数据量,那么您可以在DBMS端作为一个周期性的过程进行检查 因此,我不倾向于检查火花的一面。这似乎也有点违反直觉的摄入与卡夫卡和邦写出来尽快
这是一个有趣的问题,因为任何做某事的方法都有一些需要解决的问题——SPARK端的缓存、重读等 你能提供你正在使用的声明吗?你弄明白了吗?