Apache spark databricks中的三角洲湖-一致的；“视图”；就在溪流的最后半小时_Apache Spark_Databricks_Delta Lake

Apache spark databricks中的三角洲湖-一致的；“视图”；就在溪流的最后半小时

apache-spark

Apache spark databricks中的三角洲湖-一致的；“视图”；就在溪流的最后半小时,apache-spark,databricks,delta-lake,Apache Spark,Databricks,Delta Lake,我已从spark structured streaming（卡夫卡源代码）一致更新了表这样写的（在每个批次中）帕塞迪夫\ .选择（“somefield”、“anotherField”、“partition”、“offset”）\ .写\ .格式（“增量”）\ .mode（“追加”）\ .option（“合并模式”、“真”）\ .save（f“/mnt/defaultDatalake/{append_table_name}”）我需要在此表上快速查看“过去半小时内插入的项目” 如何做到这一

我已从spark structured streaming（卡夫卡源代码）一致更新了表这样写的（在每个批次中）


帕塞迪夫\
.选择（“somefield”、“anotherField”、“partition”、“offset”）\
.写\
.格式（“增量”）\
.mode（“追加”）\
.option（“合并模式”、“真”）\
.save（f“/mnt/defaultDatalake/{append_table_name}”）

我需要在此表上快速查看“过去半小时内插入的项目” 如何做到这一点？我可以从这个表中得到一个readStream，但我缺少的是如何保持流的“尾部”

Databricks 7.5 spark 3.

鉴于三角洲湖没有物质化视图，且三角洲湖时间旅行不相关，因为您需要最新的数据：

您可以加载数据并包含插入时不需要查找的密钥
预填充时间维度，以便与数据关联。将其视为一个带有一分钟颗粒的维度
依赖于动态文件修剪，使用此维度连接数据。因此，您需要使用滚动窗口每30分钟查询一次，并在查询中设置这些值
看

我可能误解了您的意思，但这项建议是否只是按照某个版本/时间戳显示了“整个”表格？我不希望整个表只是在过去半小时内创建的事件（仅附加日志的尾部），抱歉，我弄错了。关键是数据中是否有where子句的时间戳？滚动半小时窗口？如果查询的时间戳是针对最新版本的，则没有什么特别的。我不想每次都进行查询，我想要一种物化视图/或一个真实的表，它不断地从该表更新，但包含一个数据窗口（假设是最后半个小时）那么你需要在问题中说明这一点-你不认为，正如我所怀疑的那样。我想知道这是否可能。我不这样认为。