Apache spark spark结构化流媒体中未绑定表是如何工作的_Apache Spark_Spark Streaming

Apache spark spark结构化流媒体中未绑定表是如何工作的

apache-spark

Apache spark spark结构化流媒体中未绑定表是如何工作的,apache-spark,spark-streaming,Apache Spark,Spark Streaming,以单词计数为例，当应用程序启动并长时间运行时，收到一个单词“Spark”，然后在结果表中有一行（Spark，1）应用程序运行1天甚至一周后，应用程序再次收到“Spark”，因此结果表应该有一行（Spark，2）我只是使用上面的场景来提出一个问题：无界表如何保持它接收到的数据的状态，因为在应用程序运行很长一段时间后，状态可能会非常巨大另外，当使用“Complete”输出模式时，如果结果表非常大，那么将结果表中的所有数据写入接收器将非常耗时以避免内存中的大量数据，spark结构化流使用水印。其

以单词计数为例，当应用程序启动并长时间运行时，收到一个单词

“Spark”

，然后在结果表中有一行（Spark，1）

应用程序运行1天甚至一周后，应用程序再次收到

“Spark”

，因此结果表应该有一行（Spark，2）

我只是使用上面的场景来提出一个问题：无界表如何保持它接收到的数据的状态，因为在应用程序运行很长一段时间后，状态可能会非常巨大

另外，当使用

“Complete”

输出模式时，如果结果表非常大，那么将结果表中的所有数据写入接收器将非常耗时以避免内存中的大量数据，spark结构化流使用水印。其主要思想是只在特定时间窗口内将数据存储在内存中。此窗口之外的所有数据都存储在文件系统中。您可以阅读有关水印的内容或

以避免内存中的大量数据spark structured streaming使用水印。其主要思想是只在特定时间窗口内将数据存储在内存中。此窗口之外的所有数据都存储在文件系统中。您可以阅读有关水印或