Hive 配置单元-加载到分区表与非分区表

Hive 配置单元-加载到分区表与非分区表,hive,partition,orc,Hive,Partition,Orc,非分区配置单元管理的ORC格式表加载需要2小时,而相同的插入需要5小时以上才能加载分区表。为什么单个列(日期)上的动态分区会在性能上产生巨大差异?任何改进性能的建议都会大有帮助 它每天大约有5亿行,我正在尝试加载3个月。所以3个月到非分区表需要2个小时,而到分区表同样需要5个小时。源表和目标表都是ORC格式。由于配置单元(纱线)需要为每一行提取和排序分区列(日期),需要更多时间的是map reduce操作。但2小时甚至是极其缓慢的。您有多少个输入行,输入格式是什么?如果您从HDFS上传大的压缩文

非分区配置单元管理的ORC格式表加载需要2小时,而相同的插入需要5小时以上才能加载分区表。为什么单个列(日期)上的动态分区会在性能上产生巨大差异?任何改进性能的建议都会大有帮助


它每天大约有5亿行,我正在尝试加载3个月。所以3个月到非分区表需要2个小时,而到分区表同样需要5个小时。源表和目标表都是ORC格式。

由于配置单元(纱线)需要为每一行提取和排序分区列(日期),需要更多时间的是map reduce操作。但2小时甚至是极其缓慢的。您有多少个输入行,输入格式是什么?如果您从HDFS上传大的压缩文件,请使用像BZIP2这样的可拆分压缩格式,而不是GZ或ZIP@Harold它每天大约有5亿行,我正在尝试加载3个月。所以3个月到非分区表需要2个小时,而到分区表同样需要5个小时。源表和目标表都是ORC格式的。谢谢,所以我想5小时也没那么糟糕;尝试设置hive.vectoried.execution.enabled=true@Harold是,已启用矢量化。分区需要额外的3个小时。我不知道如何理解加班背后的过程。你可以分享任何线程或链接!这里有一个很好的解释