Hive 配置单元中最近更新的分区

Hive 配置单元中最近更新的分区,hive,Hive,在配置单元SQL中是否有办法在特定时间后更新所有分区 我有基于事务时间的每小时分区。很可能事务记录迟了几个小时到达,并且它到达了一个旧分区 Table1 : Hourly partitions 00 01 .. 23 Table 2 : Daily partitions After midnight above 24 partitions are aggregated into daily partition in Table2. 创建此每日分区后,一组事务延迟到达,并将它们添加到表1的每小

在配置单元SQL中是否有办法在特定时间后更新所有分区

我有基于事务时间的每小时分区。很可能事务记录迟了几个小时到达,并且它到达了一个旧分区

Table1 : Hourly partitions
00
01
..
23

Table 2 : Daily partitions
After midnight above 24 partitions are aggregated into daily partition in Table2.
创建此每日分区后,一组事务延迟到达,并将它们添加到表1的每小时分区中。 假设它们是在小时=20的分区中添加的

Table1 : Hourly partitions
00
01
..
23

Table 2 : Daily partitions
After midnight above 24 partitions are aggregated into daily partition in Table2.

我需要确定所有分区都以这种方式收到了哪些延迟更新。所以,如果有必要,我将在表2中重新计算每日分区数据。

我将引入包含两列的中间表:day和last modified time。每次迟到的记录到达时,都会使用上次更新时间的新行更新此表


表2可以使用此表检查上次修改时间>作业上次执行时间。如果是这样的话,请计算当天的数据。

您能提供一些示例表,比如您拥有的数据和您想要的数据。您好,Jayashree,要求更多的是分区,而不是数据。简言之,我想“在特定时间后更新所有分区?”如问题开头所述。你好,Rumoku,谢谢你的更新。是的,我目前的解决方案是让父分区具有上次更新时间,这有助于获取增量数据。应用程序正在处理这个问题。但如果有,请寻找配置单元本机解决方案。使用表分区的
descripe formatted
,您肯定可以提取创建时间和上次访问时间,但不确定是否有可能提取上次修改时间(可能上面的一个表示它)。您可以探索这种方法!Rumoku
descripe formatted
无法帮助我确定分区的上次更新时间。