Amazon s3 s3上的拼花蜂巢桌

Amazon s3 s3上的拼花蜂巢桌,amazon-s3,hive,cloudera-cdh,parquet,Amazon S3,Hive,Cloudera Cdh,Parquet,我正在尝试(在s3上创建拼花蜂巢表失败) 序列文件工作正常 create external table parquet_s3 (user_id bigint, creation_dt string) stored as parquet location 's3a://bucket/parquet'; insert into parquet_s3 select * from hdfs_data; 拼花地板坏了。 文件是在S3 bucket/文件夹上创建的,选择count(*)有效,但是选择*f

我正在尝试(在s3上创建拼花蜂巢表失败)

序列文件工作正常

create external table parquet_s3
(user_id bigint,
creation_dt string)
stored as parquet location 's3a://bucket/parquet';

insert into parquet_s3
select * from hdfs_data;
拼花地板坏了。 文件是在S3 bucket/文件夹上创建的,选择count(*)有效,但是选择*from parquet_S3 limit 10无效



其他说明我在AWS或EC2之外运行cloudera发行版5.8。S3a配置正确(我可以通过distcp复制文件,s3 sequencefile和textfile外部表工作正常)。

首先,您不清楚您的问题…
有什么问题吗?
此外,错误日志非常重要,运行时会得到什么输出以及什么命令?
我现在只能说,Hive有自己的SEQUENCEFILE reader和SEQUENCEFILE writer库,用于通过序列文件进行读写。
它使用这些软件包中的SEQUENCEFILE输入和输出格式:

  • org.apache.hadoop.mapred.SequenceFileInputFormat
  • org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
创建拼花地板桌子时,请使用下表属性语句,然后重试

TBLProperty(“拼花地板压缩”=“SNAPPY”)

create external table parquet_s3
(user_id bigint,
creation_dt string)
stored as parquet location 's3a://bucket/parquet';

insert into parquet_s3
select * from hdfs_data;