Apache spark 带数据帧的Spark状态流
是否可以将DataFrame用作Spark流的状态/状态规范?当前的StateSpec实现似乎只允许键值对数据结构(mapWithState等)Apache spark 带数据帧的Spark状态流,apache-spark,spark-dataframe,spark-streaming,Apache Spark,Spark Dataframe,Spark Streaming,是否可以将DataFrame用作Spark流的状态/状态规范?当前的StateSpec实现似乎只允许键值对数据结构(mapWithState等) 我的目标是保持一个固定大小的FIFO缓冲区作为StateSpec,它在每次新数据流进入时更新。为了与Spark ML兼容,我想在Spark DataFrame API中实现缓冲区。我不完全确定您可以使用Spark Streaming来实现这一点,但是使用基于较新的DataFrame的Spark结构化流,您可以表达随着时间的推移而更新的查询,给定传入的数
我的目标是保持一个固定大小的FIFO缓冲区作为StateSpec,它在每次新数据流进入时更新。为了与Spark ML兼容,我想在Spark DataFrame API中实现缓冲区。我不完全确定您可以使用Spark Streaming来实现这一点,但是使用基于较新的
DataFrame
的Spark结构化流,您可以表达随着时间的推移而更新的查询,给定传入的数据流
您可以阅读有关Spark结构化流媒体的更多信息
如果您对与SparkML的互操作性感兴趣,以部署经过培训的模型,您可能也会感兴趣。谢谢!这就澄清了。这个链接已经不起作用了,我在其他地方也找不到了。