Apache spark 触发器在Spark结构化流媒体中如何工作?
我正在浏览触发间隔上的结构化流式文档: 在向卡夫卡发布数据时,我使用了30秒的触发间隔 val query=dfToWriteInKafka.writeStreamApache spark 触发器在Spark结构化流媒体中如何工作?,apache-spark,spark-structured-streaming,Apache Spark,Spark Structured Streaming,我正在浏览触发间隔上的结构化流式文档: 在向卡夫卡发布数据时,我使用了30秒的触发间隔 val query=dfToWriteInKafka.writeStream .queryName("kafkaWriter") .format("kafka") .outputMode("append") .trigger(Trigger.ProcessingTime(30000)) .option("kafka.bootstrap.servers", bootstrapServers)
.queryName("kafkaWriter")
.format("kafka")
.outputMode("append")
.trigger(Trigger.ProcessingTime(30000))
.option("kafka.bootstrap.servers", bootstrapServers)
.option("topic", topicName)
.option("checkpointLocation", config.getString("job.checkpoint"))
.start()
我看到,对于前几次运行,微批次间隔不是30秒。对于以后的运行,它会在30秒时触发批处理
我想了解它是如何决定在第一次运行中拾取多少记录的。我知道我已经指定了检查点位置,但是为什么前两次运行的触发间隔不同呢
另外,spark如何决定在第一次运行中选择多少记录