Hive 带有Azure Blob存储的配置单元外部表

Hive 带有Azure Blob存储的配置单元外部表,hive,azure-storage,Hive,Azure Storage,是否有一种方法可以使用SerDe创建配置单元外部表,该表的位置指向Azure存储,其组织方式应确保数据使用的BLOB数最少。例如,如果插入10000条记录,我希望它只创建100页的blob,每个blob包含100行记录,而不是10000条,每个blob包含1条记录。我正在从blob反序列化,因此更少的blob将需要更少的时间。配置单元中最理想的格式是什么?首先,有一种方法可以使用Serde创建配置单元外部表,其中Location指向Azure blob存储,但不能直接创建,请参阅下面类似Hive

是否有一种方法可以使用SerDe创建配置单元外部表,该表的位置指向Azure存储,其组织方式应确保数据使用的BLOB数最少。例如,如果插入10000条记录,我希望它只创建100页的blob,每个blob包含100行记录,而不是10000条,每个blob包含1条记录。我正在从blob反序列化,因此更少的blob将需要更少的时间。配置单元中最理想的格式是什么?

首先,有一种方法可以使用Serde创建配置单元外部表,其中Location指向Azure blob存储,但不能直接创建,请参阅下面类似HiveQL的部分

create database if not exists <database name>;
CREATE EXTERNAL TABLE if not exists <database name>.<table name>
(
    field1 string,
    field2 int,
    field3 float,
    field4 double,
    ...,
    fieldN string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '<field separator>' lines terminated by '<line separator>'
STORED AS TEXTFILE LOCATION '<storage location>' TBLPROPERTIES("skip.header.line.count"="1");
其次,最理想的格式是在Hive中

CREATE EXTERNAL TABLE IF NOT EXSISTS <table name> (<column_name column_type>, ...)
    ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' 
    STORED AS ORC 
    LOCATION '<orcfile path>'