Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/elixir/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark write()生成ORA-00001 spark java_Apache Spark_Spark Streaming_Apache Spark Dataset - Fatal编程技术网

Apache spark write()生成ORA-00001 spark java

Apache spark write()生成ORA-00001 spark java,apache-spark,spark-streaming,apache-spark-dataset,Apache Spark,Spark Streaming,Apache Spark Dataset,只是想找出处理这种情况的最佳方法。我使用dataset.write写入oracle数据库,要求查找表中是否已经存在重复记录(不在dataset中),如果存在,则将这些重复记录写入其他表中。有没有人遇到过类似的问题?我正在编写的表是一个巨大的表,如果我在编写数据集之前从表中读取现有数据进行比较,那么成本会很高 使用的savemode是append。它是一款卡夫卡流媒体应用程序,每2分钟连续传输数据一次 没有UPSERT模式,因为我猜您指的是DF.write或DS.write 问题是这种重复发生的频

只是想找出处理这种情况的最佳方法。我使用dataset.write写入oracle数据库,要求查找表中是否已经存在重复记录(不在dataset中),如果存在,则将这些重复记录写入其他表中。有没有人遇到过类似的问题?我正在编写的表是一个巨大的表,如果我在编写数据集之前从表中读取现有数据进行比较,那么成本会很高


使用的savemode是append。它是一款卡夫卡流媒体应用程序,每2分钟连续传输数据一次

没有UPSERT模式,因为我猜您指的是DF.write或DS.write

问题是这种重复发生的频率有多高,为什么?如果一个人时不时地滑倒,会产生什么影响?我不希望在这种情况下发生重复的密钥冲突

如果重复插入逻辑上很少,并且有适当的基于时间的ORACLE分区限制要检查的数据量,那么您可以在DBMS端作为一个周期性的过程进行检查

因此,我不倾向于检查火花的一面。这似乎也有点违反直觉的摄入与卡夫卡和邦写出来尽快


这是一个有趣的问题,因为任何做某事的方法都有一些需要解决的问题——SPARK端的缓存、重读等

你能提供你正在使用的声明吗?你弄明白了吗?