Apache spark databricks中的三角洲湖-一致的;“视图”;就在溪流的最后半小时
我已从spark structured streaming(卡夫卡源代码)一致更新了表 这样写的(在每个批次中)Apache spark databricks中的三角洲湖-一致的;“视图”;就在溪流的最后半小时,apache-spark,databricks,delta-lake,Apache Spark,Databricks,Delta Lake,我已从spark structured streaming(卡夫卡源代码)一致更新了表 这样写的(在每个批次中) 帕塞迪夫\ .选择(“somefield”、“anotherField”、“partition”、“offset”)\ .写\ .格式(“增量”)\ .mode(“追加”)\ .option(“合并模式”、“真”)\ .save(f“/mnt/defaultDatalake/{append_table_name}”) 我需要在此表上快速查看“过去半小时内插入的项目” 如何做到这一
帕塞迪夫\
.选择(“somefield”、“anotherField”、“partition”、“offset”)\
.写\
.格式(“增量”)\
.mode(“追加”)\
.option(“合并模式”、“真”)\
.save(f“/mnt/defaultDatalake/{append_table_name}”)
我需要在此表上快速查看“过去半小时内插入的项目”
如何做到这一点?
我可以从这个表中得到一个readStream,但我缺少的是如何保持流的“尾部”
Databricks 7.5 spark 3.鉴于三角洲湖没有物质化视图,且三角洲湖时间旅行不相关,因为您需要最新的数据:
- 您可以加载数据并包含插入时不需要查找的密钥
- 预填充时间维度,以便与数据关联。将其视为一个带有一分钟颗粒的维度
- 依赖于动态文件修剪,使用此维度连接数据。因此,您需要使用滚动窗口每30分钟查询一次,并在查询中设置这些值
- 看