Hadoop S3上的LZO文件问题

Hadoop S3上的LZO文件问题,hadoop,amazon-web-services,amazon-s3,hive,hadoop-lzo,Hadoop,Amazon Web Services,Amazon S3,Hive,Hadoop Lzo,我有3个LZO压缩文件及其相应的HDFS索引文件 Permission Owner Group Size Replication Block Size Name -rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS -rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo -rw-r--r-- alum supergroup

我有3个LZO压缩文件及其相应的HDFS索引文件

Permission  Owner   Group   Size    Replication Block Size  Name
-rw-r--r--  alum    supergroup  0 B 3   128 MB  _SUCCESS
-rw-r--r--  alum    supergroup  192.29 MB   3   128 MB  part-00000.lzo
-rw-r--r--  alum    supergroup  89.56 KB    3   128 MB  part-00000.lzo.index
-rw-r--r--  alum    supergroup  243.09 MB   3   128 MB  part-00001.lzo
-rw-r--r--  alum    supergroup  106.67 KB   3   128 MB  part-00001.lzo.index
-rw-r--r--  alum    supergroup  163.99 MB   3   128 MB  part-00002.lzo
-rw-r--r--  alum    supergroup  70.54 KB    3   128 MB  part-00002.lzo.index
我们将这些文件复制到AmazonS3,并创建用于分析的配置单元外部表

以下是我们面临的问题

1) LZO index files are also being treated as data files and meaningless data appears in hive tables
2) "count(*)" query on the table spans only 4 mappers. Indicating problem in splitting.

你能告诉我发生了什么事吗?它在我们的纱线簇中运行良好。

s3的处理方式与HDFS不同。拆分逻辑不需要像在HDFS中那样应用。记住s3是云存储,而as HDFS不是本地存储。您的文件在s3中不会以块的形式出现。这种行为是意料之中的