Pyspark 我们是否可以在一次运行中使用spark glue中的最新数据写入和稍后读取同一个表?

Pyspark 我们是否可以在一次运行中使用spark glue中的最新数据写入和稍后读取同一个表?,pyspark,aws-glue,Pyspark,Aws Glue,以上所有步骤均在一次运行中完成。 首先,我在目标表A中加载数据,然后在联接中使用该目标。但是,在步骤5中使用join时,表A没有最新的数据 例如,如果步骤2在目标a中加载一条记录,但当我在步骤4读取该目标时,该记录未加载。但当粘合作业结束时,该记录会在目标表A中找到 但最终,A中存在但B中由于连接而丢失的所有最新数据没有正确发生从上面的流来看,似乎您只是将修改后的数据写入S3上的某个目标路径,而不是重新创建表A以指向新位置。因此,表A仍然返回旧数据。此外,在步骤2结束时,您已经将更新数据存储在某

以上所有步骤均在一次运行中完成。 首先,我在目标表A中加载数据,然后在联接中使用该目标。但是,在步骤5中使用join时,表A没有最新的数据

例如,如果步骤2在目标a中加载一条记录,但当我在步骤4读取该目标时,该记录未加载。但当粘合作业结束时,该记录会在目标表A中找到


但最终,A中存在但B中由于连接而丢失的所有最新数据没有正确发生

从上面的流来看,似乎您只是将修改后的数据写入S3上的某个目标路径,而不是重新创建表A以指向新位置。因此,表A仍然返回旧数据。此外,在步骤2结束时,您已经将更新数据存储在某个数据帧或动态帧的内存中。您不需要重新加载表A。
1.read table A from SRC
2.perform CDC & write A to TGT
3.read table B from SRC
4.read table A from TGT
5.B_new =join of A & B
6.write B_new  to TGT