Hive 配置单元-加载到分区表与非分区表_Hive_Partition_Orc

Hive 配置单元-加载到分区表与非分区表

hive

Hive 配置单元-加载到分区表与非分区表,hive,partition,orc,Hive,Partition,Orc,非分区配置单元管理的ORC格式表加载需要2小时，而相同的插入需要5小时以上才能加载分区表。为什么单个列（日期）上的动态分区会在性能上产生巨大差异？任何改进性能的建议都会大有帮助它每天大约有5亿行，我正在尝试加载3个月。所以3个月到非分区表需要2个小时，而到分区表同样需要5个小时。源表和目标表都是ORC格式。由于配置单元（纱线）需要为每一行提取和排序分区列（日期），需要更多时间的是map reduce操作。但2小时甚至是极其缓慢的。您有多少个输入行，输入格式是什么？如果您从HDFS上传大的压缩文

非分区配置单元管理的ORC格式表加载需要2小时，而相同的插入需要5小时以上才能加载分区表。为什么单个列（日期）上的动态分区会在性能上产生巨大差异？任何改进性能的建议都会大有帮助

它每天大约有5亿行，我正在尝试加载3个月。所以3个月到非分区表需要2个小时，而到分区表同样需要5个小时。源表和目标表都是ORC格式。

由于配置单元（纱线）需要为每一行提取和排序分区列（日期），需要更多时间的是map reduce操作。但2小时甚至是极其缓慢的。您有多少个输入行，输入格式是什么？如果您从HDFS上传大的压缩文件，请使用像BZIP2这样的可拆分压缩格式，而不是GZ或ZIP@Harold它每天大约有5亿行，我正在尝试加载3个月。所以3个月到非分区表需要2个小时，而到分区表同样需要5个小时。源表和目标表都是ORC格式的。谢谢，所以我想5小时也没那么糟糕；尝试设置hive.vectoried.execution.enabled=true@Harold是，已启用矢量化。分区需要额外的3个小时。我不知道如何理解加班背后的过程。你可以分享任何线程或链接！这里有一个很好的解释