Apache spark 在结构化流API(pyspark)中使用redshift作为readStream的JDBC源

Apache spark 在结构化流API(pyspark)中使用redshift作为readStream的JDBC源,apache-spark,amazon-redshift,spark-structured-streaming,Apache Spark,Amazon Redshift,Spark Structured Streaming,我正在寻找一个包,或者以前使用红移作为结构化流数据帧源的实现 spark.readStream \ .format("io.github.spark_redshift_community.spark.redshift") \ .option('url', redshift_url) \ .option('forward_spark_s3_credentials', 'true') \ .load() 使用下面的格式,读取时会出现错误。例如:

我正在寻找一个包,或者以前使用红移作为结构化流数据帧源的实现

spark.readStream \
    .format("io.github.spark_redshift_community.spark.redshift") \
    .option('url', redshift_url) \
    .option('forward_spark_s3_credentials', 'true') \
    .load()
使用下面的格式,读取时会出现错误。例如:

Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading
如果从Spark 3降级并使用:
com.databricks.Spark.redshift


是否有一种已知的解决方法或方法/模式可用于(在pyspark中)将redshift实现为readStream数据源

正如错误所述,此库不支持对redshift执行流式读/写操作

同样可以从项目来源确认。该格式不扩展或实现微/连续流读写器

没有
真正的流媒体
简单的方法可以做到这一点。您可以探索以下途径

  • 探索第三方LIB。搜索
    JDBC streaming spark
    。免责声明:我没有使用这些,因此不支持这些LIB
  • 在自定义检查点机制上创建微批处理策略
  • 扩展说明:AFAIK,Spark JDBC接口不支持结构化流