Hive 从配置单元输出的单个文件

Hive 从配置单元输出的单个文件,hive,azure-storage-blobs,Hive,Azure Storage Blobs,我有一个配置单元表,它使用SerDe在Azure Blob上存储文件 field 1 int, field 2 string, field 3 struct ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hiv

我有一个配置单元表,它使用SerDe在Azure Blob上存储文件

field 1 int,
field 2 string, 
field 3 struct
ROW FORMAT SERDE 
  'org.apache.hive.hcatalog.data.JsonSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

当我向表中插入5000条记录时,输出由Azure存储上的5000个blob组成,有没有办法将输出存储为单个blob,或者甚至减少每个blob中记录更多的blob的数量?

这似乎是由
HiveIgnoreKeyTextOutputFormat
和用于写入HDFS文件的忽略键功能造成的。请尝试指定其他输出格式,例如
HiveBinaryOutputFormat