Hadoop 配置单元:向现有表中添加行

Hadoop 配置单元:向现有表中添加行,hadoop,hive,Hadoop,Hive,我计划使用hadoop和hive解决以下问题: 我有一个数据流,比如形式(时间戳,温度),表示给定时间戳下的测量温度。我需要每天计算一些总量(如最大值)。需要每天计算一次总量(如午夜) 我考虑以某种方式将数据加载到hive,按日期对其进行分区。然而,有一个问题-流中的数据不需要按时间戳排序,我会收到延迟的记录:一个记录可能会比它应该到达的时间晚几天。在本例中,在生成通常的聚合时,我还需要计算包含该时间戳的当天的聚合 直观地说,我想将延迟记录添加到配置单元表中的相应分区中。是否可以在不重新加载整个

我计划使用hadoop和hive解决以下问题:

我有一个数据流,比如形式(时间戳,温度),表示给定时间戳下的测量温度。我需要每天计算一些总量(如最大值)。需要每天计算一次总量(如午夜)

我考虑以某种方式将数据加载到hive,按日期对其进行分区。然而,有一个问题-流中的数据不需要按时间戳排序,我会收到延迟的记录:一个记录可能会比它应该到达的时间晚几天。在本例中,在生成通常的聚合时,我还需要计算包含该时间戳的当天的聚合


直观地说,我想将延迟记录添加到配置单元表中的相应分区中。是否可以在不重新加载整个分区的情况下执行此操作?(重新加载分区是一项代价高昂的操作吗?

我认为目前不可能将记录添加到分区(或表),因此在将分区加载到表之前,您必须对记录进行排序—在我看来,这是一个两阶段的过程

但是,我相信您可以覆盖分区,因此至少可以处理修改后的分区

至少目前,hive是一个面向批量的系统