Hive 为什么插入hdfs配置单元分区表时速度太慢?
我创建了如下表:(非分区) 当我尝试插入时,速度很快 但当我创建这样的分区表时:Hive 为什么插入hdfs配置单元分区表时速度太慢?,hive,hdfs,cloudera,impala,Hive,Hdfs,Cloudera,Impala,我创建了如下表:(非分区) 当我尝试插入时,速度很快 但当我创建这样的分区表时: create external table `ersin_db`.`DW_ETL` ( `ID` INT, `NAME` STRING ) partitioned by(partition_etldate_string string ) stored as parquet LOCATION '/user/ers/ersyn61/' tblproperties('parqu
create external table `ersin_db`.`DW_ETL`
(
`ID` INT,
`NAME` STRING
)
partitioned by(partition_etldate_string string )
stored as parquet
LOCATION '/user/ers/ersyn61/'
tblproperties('parquet.compression'='SNAPPY');
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.dynamic.partition=true;
set hive.optimize.sort.dynamic.partition=true;
插入速度慢
我怎样才能更快
提前感谢您如何尝试插入记录?有很多方法。通过Informatica使用odbc对不起,我不知道它是如何工作的。您是否必须在Informatica中设置
sql插入语句
?如果是这样,什么样的sqlinsert语句
?另一方面,您选择了什么类型的分区?要理解我说的话,您可以点击以下链接:关于Impala表格中的压缩
我不明白的是,为什么它是非分区表格时速度很快,这可能是因为批次的大小。当然,在无分区表
中,批处理的大小比分区表
中的大,您是如何尝试插入记录的?有很多方法。通过Informatica使用odbc对不起,我不知道它是如何工作的。您是否必须在Informatica中设置sql插入语句
?如果是这样,什么样的sqlinsert语句
?另一方面,您选择了什么类型的分区?要理解我说的话,您可以点击以下链接:关于Impala表格中的压缩
我不明白的是,为什么它是非分区表格时速度很快,这可能是因为批次的大小。当然,在无分区表
中,批处理的大小大于分区表
create external table `ersin_db`.`DW_ETL`
(
`ID` INT,
`NAME` STRING
)
partitioned by(partition_etldate_string string )
stored as parquet
LOCATION '/user/ers/ersyn61/'
tblproperties('parquet.compression'='SNAPPY');
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.dynamic.partition=true;
set hive.optimize.sort.dynamic.partition=true;