Apache spark 在Apache Zeppelin中配置StreamingContext_Apache Spark_Apache Spark Sql_Spark Streaming_Apache Zeppelin

Apache spark 在Apache Zeppelin中配置StreamingContext

apache-spark

Apache spark 在Apache Zeppelin中配置StreamingContext,apache-spark,apache-spark-sql,spark-streaming,apache-zeppelin,Apache Spark,Apache Spark Sql,Spark Streaming,Apache Zeppelin,我的目标是从流中读取流数据（在我的例子中是aws kinesis），然后查询数据。问题是我想查询每个批次间隔的最后5分钟数据。我发现可以将数据在流中保留一段时间（使用StreamingContext.memory（Duration）方法）。齐柏林飞艇的spark解释器自动创建SparkSession，我不知道如何配置StreamingContext。我是这样做的： val df = spark .readStream .format("kinesis") .option("strea

我的目标是从流中读取流数据（在我的例子中是aws kinesis），然后查询数据。问题是我想查询每个批次间隔的最后5分钟数据。我发现可以将数据在流中保留一段时间（使用StreamingContext.memory（Duration）方法）。齐柏林飞艇的spark解释器自动创建SparkSession，我不知道如何配置StreamingContext。我是这样做的：

val df = spark
  .readStream
  .format("kinesis")
  .option("streams", "test")
  .option("endpointUrl", "kinesis.us-west-2.amazonaws.com")
  .option("initialPositionInStream", "latest")
  .option("format", "csv")
  .schema(//schema definition)
  .load

到目前为止还不错。然后，据我所知，当设置并启动写入流时，流上下文将启动：

df.writeStream
  .format(//output source)
  .outputMode("complete")
  .start()

但由于只有SparkSession，我不知道如何实现对过去X分钟数据的查询。有什么建议吗