Hive 将分区添加到配置单元中的外部表需要很多时间

Hive 将分区添加到配置单元中的外部表需要很多时间,hive,partition,hive-partitions,Hive,Partition,Hive Partitions,我想知道向外部表添加分区的最佳方法是什么。我在配置单元中的S3上有一个外部表,分区为 车辆=/date=/hr= 现在,可以在一天中的任何时间添加新车辆,并且将有一些车辆在一天中的几个小时或几天内没有数据 几乎没有可能的解决办法 -msck reapir表格:这需要很多时间 -通过脚本添加分区:我可能不知道什么时候创建新车辆,或者车辆的哪个小时数据不存在 人们通常是如何解决向外部表添加分区的问题的msck reapir table是一种正确的方法。如果运行速度太慢,请尝试在修复表之前关闭统计信息

我想知道向外部表添加分区的最佳方法是什么。我在配置单元中的S3上有一个外部表,分区为 车辆=/date=/hr=

现在,可以在一天中的任何时间添加新车辆,并且将有一些车辆在一天中的几个小时或几天内没有数据

几乎没有可能的解决办法 -msck reapir表格:这需要很多时间 -通过脚本添加分区:我可能不知道什么时候创建新车辆,或者车辆的哪个小时数据不存在


人们通常是如何解决向外部表添加分区的问题的

msck reapir table
是一种正确的方法。如果运行速度太慢,请尝试在修复表之前关闭统计信息自动收集:

set hive.stats.autogather=false;
您可以在恢复分区后再次启用它


最有可能的情况是,您遇到了一个或多个相关的bug。对我来说,这很有帮助。

是的,msck修复表是一项开销。我现在正在对使用lambda创建的文件的每个事件进行添加分区function@Nipun是的,Lambda可能是更好的解决方案