Apache spark 如何使用外部数据库（postgresql）作为流式查询的输入？_Apache Spark_Pyspark_Spark Structured Streaming

Apache spark 如何使用外部数据库（postgresql）作为流式查询的输入？

apache-spark pyspark

Apache spark 如何使用外部数据库（postgresql）作为流式查询的输入？,apache-spark,pyspark,spark-structured-streaming,Apache Spark,Pyspark,Spark Structured Streaming,我正在尝试在Postgresql中实现流式输入更新。具体来说，我想使用Postgresql作为spark的流输入中的数据源看着这份文件，我不确定这是否可行是否可以将PostgresQL的输入流式处理，可能是作为微批处理？要将您的PSQL数据流式处理为微批处理，Kafka是最好的方法。您可以使用Kafka connect（作为源）在代理和数据库之间建立连接请参见卡夫卡流媒体与Spark流媒体的集成：卡夫卡连接文档：通过这种方式，您可以面对故障、并发并优化您的计算能力

我正在尝试在Postgresql中实现流式输入更新。具体来说，我想使用Postgresql作为spark的流输入中的数据源

看着这份文件，我不确定这是否可行

是否可以将PostgresQL的输入流式处理，可能是作为微批处理？

要将您的PSQL数据流式处理为微批处理，Kafka是最好的方法。您可以使用Kafka connect（作为源）在代理和数据库之间建立连接

请参见卡夫卡流媒体与Spark流媒体的集成：

卡夫卡连接文档：

通过这种方式，您可以面对故障、并发并优化您的计算能力