Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何使用外部数据库(postgresql)作为流式查询的输入?_Apache Spark_Pyspark_Spark Structured Streaming - Fatal编程技术网

Apache spark 如何使用外部数据库(postgresql)作为流式查询的输入?

Apache spark 如何使用外部数据库(postgresql)作为流式查询的输入?,apache-spark,pyspark,spark-structured-streaming,Apache Spark,Pyspark,Spark Structured Streaming,我正在尝试在Postgresql中实现流式输入更新。 具体来说,我想使用Postgresql作为spark的流输入中的数据源 看着这份文件,我不确定这是否可行 是否可以将PostgresQL的输入流式处理,可能是作为微批处理?要将您的PSQL数据流式处理为微批处理,Kafka是最好的方法。您可以使用Kafka connect(作为源)在代理和数据库之间建立连接 请参见卡夫卡流媒体与Spark流媒体的集成: 卡夫卡连接文档: 通过这种方式,您可以面对故障、并发并优化您的计算能力

我正在尝试在Postgresql中实现流式输入更新。 具体来说,我想使用Postgresql作为spark的流输入中的数据源

看着这份文件,我不确定这是否可行


是否可以将PostgresQL的输入流式处理,可能是作为微批处理?

要将您的PSQL数据流式处理为微批处理,Kafka是最好的方法。您可以使用Kafka connect(作为源)在代理数据库之间建立连接

请参见卡夫卡流媒体与Spark流媒体的集成:

卡夫卡连接文档

通过这种方式,您可以面对故障、并发并优化您的计算能力