Hadoop 快速对分区配置单元表进行增量更新
我有两个蜂巢表T1和T2。T1是一个由列date1 hour1分区的外部表。它还有另一个日期列date2(与date1不同) T2是一个按date2分区的配置单元表 我将每小时递增地获取数据,并且我可以使用动态分区轻松地将其添加到表T1中 我想要一种有效的方法,从T1中选择数据,并将数据增量加载到T2中,按date2分区 这就是我现在正在做的Hadoop 快速对分区配置单元表进行增量更新,hadoop,hive,etl,partition,Hadoop,Hive,Etl,Partition,我有两个蜂巢表T1和T2。T1是一个由列date1 hour1分区的外部表。它还有另一个日期列date2(与date1不同) T2是一个按date2分区的配置单元表 我将每小时递增地获取数据,并且我可以使用动态分区轻松地将其添加到表T1中 我想要一种有效的方法,从T1中选择数据,并将数据增量加载到T2中,按date2分区 这就是我现在正在做的 insert into T2 select *, date2 from ( select * from T1 wh
insert into T2
select
*,
date2
from
(
select * from T1 where date1="a constant date" and hour1 = "a constant hour"
) T1SubQuery
left outer join
T2
on
T1SubQuery.idColumn = T2.idColumn
where
T2.idColumn is null
我正在做一个左外连接和“where T1.idColumn为null”来模拟“where not in”。我这样做是为了避免重复数据,查询可以运行多次,我希望它是幂等的
问题