Apache spark 在结构化流API(pyspark)中使用redshift作为readStream的JDBC源
我正在寻找一个包,或者以前使用红移作为结构化流数据帧源的实现Apache spark 在结构化流API(pyspark)中使用redshift作为readStream的JDBC源,apache-spark,amazon-redshift,spark-structured-streaming,Apache Spark,Amazon Redshift,Spark Structured Streaming,我正在寻找一个包,或者以前使用红移作为结构化流数据帧源的实现 spark.readStream \ .format("io.github.spark_redshift_community.spark.redshift") \ .option('url', redshift_url) \ .option('forward_spark_s3_credentials', 'true') \ .load() 使用下面的格式,读取时会出现错误。例如:
spark.readStream \
.format("io.github.spark_redshift_community.spark.redshift") \
.option('url', redshift_url) \
.option('forward_spark_s3_credentials', 'true') \
.load()
使用下面的格式,读取时会出现错误。例如:
Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading
如果从Spark 3降级并使用:com.databricks.Spark.redshift
是否有一种已知的解决方法或方法/模式可用于(在pyspark中)将redshift实现为readStream数据源正如错误所述,此库不支持对redshift执行流式读/写操作 同样可以从项目来源确认。该格式不扩展或实现微/连续流读写器 没有
真正的流媒体
简单的方法可以做到这一点。您可以探索以下途径
JDBC streaming spark
。免责声明:我没有使用这些,因此不支持这些LIB