Apache spark 在Apache Zeppelin中配置StreamingContext
我的目标是从流中读取流数据(在我的例子中是aws kinesis),然后查询数据。问题是我想查询每个批次间隔的最后5分钟数据。我发现可以将数据在流中保留一段时间(使用StreamingContext.memory(Duration)方法)。齐柏林飞艇的spark解释器自动创建SparkSession,我不知道如何配置StreamingContext。我是这样做的:Apache spark 在Apache Zeppelin中配置StreamingContext,apache-spark,apache-spark-sql,spark-streaming,apache-zeppelin,Apache Spark,Apache Spark Sql,Spark Streaming,Apache Zeppelin,我的目标是从流中读取流数据(在我的例子中是aws kinesis),然后查询数据。问题是我想查询每个批次间隔的最后5分钟数据。我发现可以将数据在流中保留一段时间(使用StreamingContext.memory(Duration)方法)。齐柏林飞艇的spark解释器自动创建SparkSession,我不知道如何配置StreamingContext。我是这样做的: val df = spark .readStream .format("kinesis") .option("strea
val df = spark
.readStream
.format("kinesis")
.option("streams", "test")
.option("endpointUrl", "kinesis.us-west-2.amazonaws.com")
.option("initialPositionInStream", "latest")
.option("format", "csv")
.schema(//schema definition)
.load
到目前为止还不错。然后,据我所知,当设置并启动写入流时,流上下文将启动:
df.writeStream
.format(//output source)
.outputMode("complete")
.start()
但由于只有SparkSession,我不知道如何实现对过去X分钟数据的查询。有什么建议吗