Apache spark """ fastStream.slow_id=slowStream.id """ ), “内部” ).select(“fastStream.*”、“slowStream.metadata”) #将数据写入数据库 db_con.write(out_df)

Apache spark """ fastStream.slow_id=slowStream.id """ ), “内部” ).select(“fastStream.*”、“slowStream.metadata”) #将数据写入数据库 db_con.write(out_df) ,apache-spark,pyspark,spark-streaming,spark-structured-streaming,Apache Spark,Pyspark,Spark Streaming,Spark Structured Streaming,""" fastStream.slow_id=slowStream.id """ ), “内部” ).select(“fastStream.*”、“slowStream.metadata”) #将数据写入数据库 db_con.write(out_df) fastStream.writeStream.foreachBatch(加入慢速流) 谢谢@mike,但我不确定我是否同意。虽然需要缓冲slowStream表(实际上,整个表都可以轻松地放入内存中)。我不需要缓冲fastStream来进行连接。

""" fastStream.slow_id=slowStream.id """ ), “内部” ).select(“fastStream.*”、“slowStream.metadata”) #将数据写入数据库 db_con.write(out_df) fastStream.writeStream.foreachBatch(加入慢速流)
谢谢@mike,但我不确定我是否同意。虽然需要缓冲
slowStream
表(实际上,整个表都可以轻松地放入内存中)。我不需要缓冲
fastStream
来进行连接。我很高兴
fastStremn
中的消息如果不立即加入,就会丢失。我已经相应地更新了我的问题。只要你在没有无界状态的情况下进行流连接,你就需要能够回答我答案中写的两个问题。这些问题的答案是什么?另外,流静态解决方案是您的一个选项吗?您是否可以尝试删除连接条件
和fastStream.timestamp>水印
,并将fastStream的水印设置为
1秒