Hadoop S3上的LZO文件问题
我有3个LZO压缩文件及其相应的HDFS索引文件Hadoop S3上的LZO文件问题,hadoop,amazon-web-services,amazon-s3,hive,hadoop-lzo,Hadoop,Amazon Web Services,Amazon S3,Hive,Hadoop Lzo,我有3个LZO压缩文件及其相应的HDFS索引文件 Permission Owner Group Size Replication Block Size Name -rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS -rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo -rw-r--r-- alum supergroup
Permission Owner Group Size Replication Block Size Name
-rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS
-rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo
-rw-r--r-- alum supergroup 89.56 KB 3 128 MB part-00000.lzo.index
-rw-r--r-- alum supergroup 243.09 MB 3 128 MB part-00001.lzo
-rw-r--r-- alum supergroup 106.67 KB 3 128 MB part-00001.lzo.index
-rw-r--r-- alum supergroup 163.99 MB 3 128 MB part-00002.lzo
-rw-r--r-- alum supergroup 70.54 KB 3 128 MB part-00002.lzo.index
我们将这些文件复制到AmazonS3,并创建用于分析的配置单元外部表
以下是我们面临的问题
1) LZO index files are also being treated as data files and meaningless data appears in hive tables
2) "count(*)" query on the table spans only 4 mappers. Indicating problem in splitting.
你能告诉我发生了什么事吗?它在我们的纱线簇中运行良好。s3的处理方式与HDFS不同。拆分逻辑不需要像在HDFS中那样应用。记住s3是云存储,而as HDFS不是本地存储。您的文件在s3中不会以块的形式出现。这种行为是意料之中的