Scala 如何在spark中仅读取新文件

Scala 如何在spark中仅读取新文件,scala,apache-spark,Scala,Apache Spark,我正在使用spark和scala读取csv文件,这些文件来自另一个spark流媒体作业。 我只需要读取新文件 val df= spark .read // .schema(test_raw) .option("header", "true") .option("sep", ",") .csv(path).toDF().cache() event3.registerTempTable("test") 我通过在数据帧上添加一个检查点解决了这个问题,如下所示 val df= s

我正在使用spark和scala读取csv文件,这些文件来自另一个spark流媒体作业。
我只需要读取新文件

val df= spark  
.read // 
.schema(test_raw)
.option("header", "true")    
.option("sep", ",")   
.csv(path).toDF().cache() 
event3.registerTempTable("test")

我通过在数据帧上添加一个检查点解决了这个问题,如下所示

val df= spark  
.read // 
.schema(test_raw)
.option("header", "true")    
.option("sep", ",")   
.csv(path).toDF().checkpoint().cache()

添加检查点路径