Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/powerbi/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在Apache Zeppelin中配置StreamingContext_Apache Spark_Apache Spark Sql_Spark Streaming_Apache Zeppelin - Fatal编程技术网

Apache spark 在Apache Zeppelin中配置StreamingContext

Apache spark 在Apache Zeppelin中配置StreamingContext,apache-spark,apache-spark-sql,spark-streaming,apache-zeppelin,Apache Spark,Apache Spark Sql,Spark Streaming,Apache Zeppelin,我的目标是从流中读取流数据(在我的例子中是aws kinesis),然后查询数据。问题是我想查询每个批次间隔的最后5分钟数据。我发现可以将数据在流中保留一段时间(使用StreamingContext.memory(Duration)方法)。齐柏林飞艇的spark解释器自动创建SparkSession,我不知道如何配置StreamingContext。我是这样做的: val df = spark .readStream .format("kinesis") .option("strea

我的目标是从流中读取流数据(在我的例子中是aws kinesis),然后查询数据。问题是我想查询每个批次间隔的最后5分钟数据。我发现可以将数据在流中保留一段时间(使用StreamingContext.memory(Duration)方法)。齐柏林飞艇的spark解释器自动创建SparkSession,我不知道如何配置StreamingContext。我是这样做的:

val df = spark
  .readStream
  .format("kinesis")
  .option("streams", "test")
  .option("endpointUrl", "kinesis.us-west-2.amazonaws.com")
  .option("initialPositionInStream", "latest")
  .option("format", "csv")
  .schema(//schema definition)
  .load
到目前为止还不错。然后,据我所知,当设置并启动写入流时,流上下文将启动:

df.writeStream
  .format(//output source)
  .outputMode("complete")
  .start()
但由于只有SparkSession,我不知道如何实现对过去X分钟数据的查询。有什么建议吗