Hadoop 配置单元：向现有表中添加行_Hadoop_Hive

Hadoop 配置单元：向现有表中添加行

hadoop hive

Hadoop 配置单元：向现有表中添加行,hadoop,hive,Hadoop,Hive,我计划使用hadoop和hive解决以下问题：我有一个数据流，比如形式（时间戳，温度），表示给定时间戳下的测量温度。我需要每天计算一些总量（如最大值）。需要每天计算一次总量（如午夜）我考虑以某种方式将数据加载到hive，按日期对其进行分区。然而，有一个问题-流中的数据不需要按时间戳排序，我会收到延迟的记录：一个记录可能会比它应该到达的时间晚几天。在本例中，在生成通常的聚合时，我还需要计算包含该时间戳的当天的聚合直观地说，我想将延迟记录添加到配置单元表中的相应分区中。是否可以在不重新加载整个

我计划使用hadoop和hive解决以下问题：

我有一个数据流，比如形式（时间戳，温度），表示给定时间戳下的测量温度。我需要每天计算一些总量（如最大值）。需要每天计算一次总量（如午夜）

我考虑以某种方式将数据加载到hive，按日期对其进行分区。然而，有一个问题-流中的数据不需要按时间戳排序，我会收到延迟的记录：一个记录可能会比它应该到达的时间晚几天。在本例中，在生成通常的聚合时，我还需要计算包含该时间戳的当天的聚合

直观地说，我想将延迟记录添加到配置单元表中的相应分区中。是否可以在不重新加载整个分区的情况下执行此操作？（重新加载分区是一项代价高昂的操作吗？

我认为目前不可能将记录添加到分区（或表），因此在将分区加载到表之前，您必须对记录进行排序—在我看来，这是一个两阶段的过程

但是，我相信您可以覆盖分区，因此至少可以处理修改后的分区

至少目前，hive是一个面向批量的系统