Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark databricks中的三角洲湖-一致的;“视图”;就在溪流的最后半小时_Apache Spark_Databricks_Delta Lake - Fatal编程技术网

Apache spark databricks中的三角洲湖-一致的;“视图”;就在溪流的最后半小时

Apache spark databricks中的三角洲湖-一致的;“视图”;就在溪流的最后半小时,apache-spark,databricks,delta-lake,Apache Spark,Databricks,Delta Lake,我已从spark structured streaming(卡夫卡源代码)一致更新了表 这样写的(在每个批次中) 帕塞迪夫\ .选择(“somefield”、“anotherField”、“partition”、“offset”)\ .写\ .格式(“增量”)\ .mode(“追加”)\ .option(“合并模式”、“真”)\ .save(f“/mnt/defaultDatalake/{append_table_name}”) 我需要在此表上快速查看“过去半小时内插入的项目” 如何做到这一

我已从spark structured streaming(卡夫卡源代码)一致更新了表 这样写的(在每个批次中)


帕塞迪夫\
.选择(“somefield”、“anotherField”、“partition”、“offset”)\
.写\
.格式(“增量”)\
.mode(“追加”)\
.option(“合并模式”、“真”)\
.save(f“/mnt/defaultDatalake/{append_table_name}”)
我需要在此表上快速查看“过去半小时内插入的项目” 如何做到这一点? 我可以从这个表中得到一个readStream,但我缺少的是如何保持流的“尾部”


Databricks 7.5 spark 3.

鉴于三角洲湖没有物质化视图,且三角洲湖时间旅行不相关,因为您需要最新的数据:

  • 您可以加载数据并包含插入时不需要查找的密钥

  • 预填充时间维度,以便与数据关联。将其视为一个带有一分钟颗粒的维度

  • 依赖于动态文件修剪,使用此维度连接数据。因此,您需要使用滚动窗口每30分钟查询一次,并在查询中设置这些值


我可能误解了您的意思,但这项建议是否只是按照某个版本/时间戳显示了“整个”表格?我不希望整个表只是在过去半小时内创建的事件(仅附加日志的尾部),抱歉,我弄错了。关键是数据中是否有where子句的时间戳?滚动半小时窗口?如果查询的时间戳是针对最新版本的,则没有什么特别的。我不想每次都进行查询,我想要一种物化视图/或一个真实的表,它不断地从该表更新,但包含一个数据窗口(假设是最后半个小时)那么你需要在问题中说明这一点-你不认为,正如我所怀疑的那样。我想知道这是否可能。我不这样认为。