Hive 从配置单元输出的单个文件
我有一个配置单元表,它使用SerDe在Azure Blob上存储文件Hive 从配置单元输出的单个文件,hive,azure-storage-blobs,Hive,Azure Storage Blobs,我有一个配置单元表,它使用SerDe在Azure Blob上存储文件 field 1 int, field 2 string, field 3 struct ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hiv
field 1 int,
field 2 string,
field 3 struct
ROW FORMAT SERDE
'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
当我向表中插入5000条记录时,输出由Azure存储上的5000个blob组成,有没有办法将输出存储为单个blob,或者甚至减少每个blob中记录更多的blob的数量?这似乎是由
HiveIgnoreKeyTextOutputFormat
和用于写入HDFS文件的忽略键功能造成的。请尝试指定其他输出格式,例如HiveBinaryOutputFormat