如何使用Pyspark/SQL/DataFrames-SPARK-RDD升级/删除DB2源表数据?

如何使用Pyspark/SQL/DataFrames-SPARK-RDD升级/删除DB2源表数据?,pyspark,apache-spark-sql,spark-streaming,pyspark-sql,Pyspark,Apache Spark Sql,Spark Streaming,Pyspark Sql,我正在尝试运行upsert/删除DB2数据库源表中的一些值,这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。使用Pyspark作业在关系数据库中没有直接的更新/删除方法,但有一些变通方法 1您可以在关系数据库中创建一个相同的空表辅助表,并使用pyspark作业将数据插入辅助表,然后编写一个DML触发器,在主表上执行所需的DML操作 2您可以在spark中创建一个dataframe,例如,它将是现有关系表的副本,并将现有表dataframe与当前da

我正在尝试运行upsert/删除DB2数据库源表中的一些值,这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

使用Pyspark作业在关系数据库中没有直接的更新/删除方法,但有一些变通方法

1您可以在关系数据库中创建一个相同的空表辅助表,并使用pyspark作业将数据插入辅助表,然后编写一个DML触发器,在主表上执行所需的DML操作

2您可以在spark中创建一个dataframe,例如,它将是现有关系表的副本,并将现有表dataframe与当前dataframeeg合并。b并创建一个新的dataframeeg。c那将是最新的变化。现在截断关系数据库表并使用spark最新更改dataframec重新加载

这只是一种变通方法,不是海量数据的最佳解决方案