Hive 带有Azure Blob存储的配置单元外部表
是否有一种方法可以使用SerDe创建配置单元外部表,该表的位置指向Azure存储,其组织方式应确保数据使用的BLOB数最少。例如,如果插入10000条记录,我希望它只创建100页的blob,每个blob包含100行记录,而不是10000条,每个blob包含1条记录。我正在从blob反序列化,因此更少的blob将需要更少的时间。配置单元中最理想的格式是什么?首先,有一种方法可以使用Serde创建配置单元外部表,其中Location指向Azure blob存储,但不能直接创建,请参阅下面类似HiveQL的部分Hive 带有Azure Blob存储的配置单元外部表,hive,azure-storage,Hive,Azure Storage,是否有一种方法可以使用SerDe创建配置单元外部表,该表的位置指向Azure存储,其组织方式应确保数据使用的BLOB数最少。例如,如果插入10000条记录,我希望它只创建100页的blob,每个blob包含100行记录,而不是10000条,每个blob包含1条记录。我正在从blob反序列化,因此更少的blob将需要更少的时间。配置单元中最理想的格式是什么?首先,有一种方法可以使用Serde创建配置单元外部表,其中Location指向Azure blob存储,但不能直接创建,请参阅下面类似Hive
create database if not exists <database name>;
CREATE EXTERNAL TABLE if not exists <database name>.<table name>
(
field1 string,
field2 int,
field3 float,
field4 double,
...,
fieldN string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '<field separator>' lines terminated by '<line separator>'
STORED AS TEXTFILE LOCATION '<storage location>' TBLPROPERTIES("skip.header.line.count"="1");
其次,最理想的格式是在Hive中
CREATE EXTERNAL TABLE IF NOT EXSISTS <table name> (<column_name column_type>, ...)
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS ORC
LOCATION '<orcfile path>'