Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 触发器在Spark结构化流媒体中如何工作?_Apache Spark_Spark Structured Streaming - Fatal编程技术网

Apache spark 触发器在Spark结构化流媒体中如何工作?

Apache spark 触发器在Spark结构化流媒体中如何工作?,apache-spark,spark-structured-streaming,Apache Spark,Spark Structured Streaming,我正在浏览触发间隔上的结构化流式文档: 在向卡夫卡发布数据时,我使用了30秒的触发间隔 val query=dfToWriteInKafka.writeStream .queryName("kafkaWriter") .format("kafka") .outputMode("append") .trigger(Trigger.ProcessingTime(30000)) .option("kafka.bootstrap.servers", bootstrapServers)

我正在浏览触发间隔上的结构化流式文档:

在向卡夫卡发布数据时,我使用了30秒的触发间隔

val query=dfToWriteInKafka.writeStream

  .queryName("kafkaWriter")
  .format("kafka")
  .outputMode("append")
  .trigger(Trigger.ProcessingTime(30000))
  .option("kafka.bootstrap.servers", bootstrapServers)
  .option("topic", topicName)
  .option("checkpointLocation", config.getString("job.checkpoint"))
  .start()
我看到,对于前几次运行,微批次间隔不是30秒。对于以后的运行,它会在30秒时触发批处理

我想了解它是如何决定在第一次运行中拾取多少记录的。我知道我已经指定了检查点位置,但是为什么前两次运行的触发间隔不同呢

另外,spark如何决定在第一次运行中选择多少记录