Apache spark 如何在Spark中创建一个可变数据帧并保持附加到它的流行?
我有一个Spark流媒体源来读取数据。我想从这个源中读取数据,并一直附加到一个可变的数据帧,这样在流的末尾(当我停止流时),我将在Spark内存中有一个数据帧,以便进一步操作 如何实现Apache spark 如何在Spark中创建一个可变数据帧并保持附加到它的流行?,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我有一个Spark流媒体源来读取数据。我想从这个源中读取数据,并一直附加到一个可变的数据帧,这样在流的末尾(当我停止流时),我将在Spark内存中有一个数据帧,以便进一步操作 如何实现 注意:我知道Spark中的所有内容都是惰性负载,不可能在Spark流之外进行任何操作。但是,我的目标是在流式处理时将数据“缓存”到Spark内存中,然后在流式处理后使用此缓存的数据帧。Seach for stateful streaming processing-mapStateWithKey将是您的队友!:)听
注意:我知道Spark中的所有内容都是惰性负载,不可能在Spark流之外进行任何操作。但是,我的目标是在流式处理时将数据“缓存”到Spark内存中,然后在流式处理后使用此缓存的数据帧。Seach for stateful streaming processing-mapStateWithKey将是您的队友!:)听起来结构化流媒体可能很受欢迎。对于这种情况,有没有一个基本的例子?