Performance 配置单元分析查询占用大量时间

Performance 配置单元分析查询占用大量时间,performance,hadoop,hive,query-tuning,apache-tez,Performance,Hadoop,Hive,Query Tuning,Apache Tez,为了加快大型表上的ETL查询,我们在晚上对这些表和日期列运行了许多analyze查询。 但是这些分析列查询占用大量内存和时间。 我们正在使用tez。 是否有任何方法可以像某些set命令一样优化analyze查询。如果使用插入覆盖加载表,则可以在插入覆盖查询期间通过设置hive.stats.autogather=true来自动收集统计信息 如果表已分区并且分区正在以增量方式加载,则只能分析最后一个分区 ANALYZE TABLE [db_name.]tablename [PARTITION(par

为了加快大型表上的ETL查询,我们在晚上对这些表和日期列运行了许多
analyze
查询。 但是这些
分析
列查询占用大量内存和时间。 我们正在使用tez。
是否有任何方法可以像某些set命令一样优化
analyze
查询。

如果使用插入覆盖加载表,则可以在插入覆盖查询期间通过设置
hive.stats.autogather=true来自动收集统计信息

如果表已分区并且分区正在以增量方式加载,则只能分析最后一个分区

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] 
请参见此处的示例:

对于ORC文件,可以指定
hive.stats.gather.num.threads
以增加并行性


请参阅此处统计设置的完整列表:

如果使用插入覆盖加载表,则可以在插入覆盖查询期间通过设置
hive.stats.autogather=true来自动收集统计信息

如果表已分区并且分区正在以增量方式加载,则只能分析最后一个分区

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] 
请参见此处的示例:

对于ORC文件,可以指定
hive.stats.gather.num.threads
以增加并行性

请参见此处统计设置的完整列表: