Hive 为什么插入hdfs配置单元分区表时速度太慢?

Hive 为什么插入hdfs配置单元分区表时速度太慢?,hive,hdfs,cloudera,impala,Hive,Hdfs,Cloudera,Impala,我创建了如下表:(非分区) 当我尝试插入时,速度很快 但当我创建这样的分区表时: create external table `ersin_db`.`DW_ETL` ( `ID` INT, `NAME` STRING ) partitioned by(partition_etldate_string string ) stored as parquet LOCATION '/user/ers/ersyn61/' tblproperties('parqu

我创建了如下表:(非分区)

当我尝试插入时,速度很快

但当我创建这样的分区表时:

create external table `ersin_db`.`DW_ETL`
  (
  `ID` INT, 
  `NAME` STRING
  ) 
partitioned by(partition_etldate_string string )
    stored as parquet
    LOCATION '/user/ers/ersyn61/'
    tblproperties('parquet.compression'='SNAPPY');


SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.dynamic.partition=true;
set hive.optimize.sort.dynamic.partition=true;
插入速度慢

我怎样才能更快


提前感谢

您如何尝试插入记录?有很多方法。通过Informatica使用odbc对不起,我不知道它是如何工作的。您是否必须在Informatica中设置
sql插入语句
?如果是这样,什么样的
sqlinsert语句
?另一方面,您选择了什么类型的
分区?要理解我说的话,您可以点击以下链接:关于Impala表格中的压缩
我不明白的是,为什么它是非分区表格时速度很快,这可能是因为批次的大小。当然,在
无分区表
中,批处理的大小比
分区表
中的大,您是如何尝试插入记录的?有很多方法。通过Informatica使用odbc对不起,我不知道它是如何工作的。您是否必须在Informatica中设置
sql插入语句
?如果是这样,什么样的
sqlinsert语句
?另一方面,您选择了什么类型的
分区?要理解我说的话,您可以点击以下链接:关于Impala表格中的压缩
我不明白的是,为什么它是非分区表格时速度很快,这可能是因为批次的大小。当然,在
无分区表
中,批处理的大小大于
分区表
create external table `ersin_db`.`DW_ETL`
  (
  `ID` INT, 
  `NAME` STRING
  ) 
partitioned by(partition_etldate_string string )
    stored as parquet
    LOCATION '/user/ers/ersyn61/'
    tblproperties('parquet.compression'='SNAPPY');


SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.dynamic.partition=true;
set hive.optimize.sort.dynamic.partition=true;