Pyspark 我们是否可以在一次运行中使用spark glue中的最新数据写入和稍后读取同一个表？_Pyspark_Aws Glue

Pyspark 我们是否可以在一次运行中使用spark glue中的最新数据写入和稍后读取同一个表？

pyspark

Pyspark 我们是否可以在一次运行中使用spark glue中的最新数据写入和稍后读取同一个表？,pyspark,aws-glue,Pyspark,Aws Glue,以上所有步骤均在一次运行中完成。首先，我在目标表A中加载数据，然后在联接中使用该目标。但是，在步骤5中使用join时，表A没有最新的数据例如，如果步骤2在目标a中加载一条记录，但当我在步骤4读取该目标时，该记录未加载。但当粘合作业结束时，该记录会在目标表A中找到但最终，A中存在但B中由于连接而丢失的所有最新数据没有正确发生从上面的流来看，似乎您只是将修改后的数据写入S3上的某个目标路径，而不是重新创建表A以指向新位置。因此，表A仍然返回旧数据。此外，在步骤2结束时，您已经将更新数据存储在某

以上所有步骤均在一次运行中完成。首先，我在目标表A中加载数据，然后在联接中使用该目标。但是，在步骤5中使用join时，表A没有最新的数据

例如，如果步骤2在目标a中加载一条记录，但当我在步骤4读取该目标时，该记录未加载。但当粘合作业结束时，该记录会在目标表A中找到

但最终，A中存在但B中由于连接而丢失的所有最新数据没有正确发生

从上面的流来看，似乎您只是将修改后的数据写入S3上的某个目标路径，而不是重新创建表A以指向新位置。因此，表A仍然返回旧数据。此外，在步骤2结束时，您已经将更新数据存储在某个数据帧或动态帧的内存中。您不需要重新加载表A。

1.read table A from SRC
2.perform CDC & write A to TGT
3.read table B from SRC
4.read table A from TGT
5.B_new =join of A & B
6.write B_new  to TGT