Apache spark 在结构化流API（pyspark）中使用redshift作为readStream的JDBC源_Apache Spark_Amazon Redshift_Spark Structured Streaming

Apache spark 在结构化流API（pyspark）中使用redshift作为readStream的JDBC源

apache-spark amazon-redshift

Apache spark 在结构化流API（pyspark）中使用redshift作为readStream的JDBC源,apache-spark,amazon-redshift,spark-structured-streaming,Apache Spark,Amazon Redshift,Spark Structured Streaming,我正在寻找一个包，或者以前使用红移作为结构化流数据帧源的实现 spark.readStream \ .format("io.github.spark_redshift_community.spark.redshift") \ .option('url', redshift_url) \ .option('forward_spark_s3_credentials', 'true') \ .load() 使用下面的格式，读取时会出现错误。例如：

我正在寻找一个包，或者以前使用红移作为结构化流数据帧源的实现

spark.readStream \
    .format("io.github.spark_redshift_community.spark.redshift") \
    .option('url', redshift_url) \
    .option('forward_spark_s3_credentials', 'true') \
    .load()

使用下面的格式，读取时会出现错误。例如：

Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading

如果从Spark 3降级并使用：

com.databricks.Spark.redshift

是否有一种已知的解决方法或方法/模式可用于（在pyspark中）将redshift实现为readStream数据源

正如错误所述，此库不支持对redshift执行流式读/写操作

同样可以从项目来源确认。该格式不扩展或实现微/连续流读写器

没有

真正的流媒体

简单的方法可以做到这一点。您可以探索以下途径

探索第三方LIB。搜索

JDBC streaming spark

。免责声明：我没有使用这些，因此不支持这些LIB

在自定义检查点机制上创建微批处理策略

扩展说明：AFAIK，Spark JDBC接口不支持结构化流