Apache spark 如何从Databricks增量文件中精简或仅提取插入/添加？_Apache Spark_Spark Structured Streaming_Azure Databricks_Delta Lake

Apache spark 如何从Databricks增量文件中精简或仅提取插入/添加？

apache-spark

Apache spark 如何从Databricks增量文件中精简或仅提取插入/添加？,apache-spark,spark-structured-streaming,azure-databricks,delta-lake,Apache Spark,Spark Structured Streaming,Azure Databricks,Delta Lake,我有一个场景，在这个场景中，我想运行一个Spark结构化流作业来读取一个Databricks Delta源文件，并只提取对源文件的插入。我想过滤掉任何更新/删除我试图在一个较小的文件上进行跟踪，但代码似乎没有达到我的预期 spark .readStream .format("delta") .option("latestFirst","true") .option("ignoreDeletes", "true") .option("ignoreChanges","true") .load("/

我有一个场景，在这个场景中，我想运行一个Spark结构化流作业来读取一个Databricks Delta源文件，并只提取对源文件的插入。我想过滤掉任何更新/删除

我试图在一个较小的文件上进行跟踪，但代码似乎没有达到我的预期

spark
.readStream
.format("delta")
.option("latestFirst","true")
.option("ignoreDeletes", "true")
.option("ignoreChanges","true")
.load("/mnt/data-lake/data/bronze/accounts")
.writeStream
.format("delta")
.outputMode("append")
.option("checkpointLocation","/mnt/data-lake/tmp/chkpnt_accounts_inserts")
.option("path","/mnt/data-lake/tmp/accounts_inserts")
.start()