Hadoop ORC文件转储中的条带大小是否以压缩大小格式表示?
我们有snappy压缩生成的ORC文件。我只是想了解ORC文件转储日志,我知道默认情况下ORC的条带大小为64MB。但是,我发现ORC文件中的每个条带的大小一般都在5-10MB左右。我只是想知道大小是用压缩格式表示的,还是默认条带本身小于64MBHadoop ORC文件转储中的条带大小是否以压缩大小格式表示?,hadoop,amazon-s3,hive,amazon-emr,orc,Hadoop,Amazon S3,Hive,Amazon Emr,Orc,我们有snappy压缩生成的ORC文件。我只是想了解ORC文件转储日志,我知道默认情况下ORC的条带大小为64MB。但是,我发现ORC文件中的每个条带的大小一般都在5-10MB左右。我只是想知道大小是用压缩格式表示的,还是默认条带本身小于64MB 注意:我在后台使用的是最新的EMR实例,文件在S3中。条带大小表示缓冲区memomry大小,它被指定用于将行存储更改为列存储,然后写入HDFS。因此,您在HDFS中看到的条带总是小于条带的大小(即64 MB)。将此作为评论发布感谢您的回复!然而,它并没
注意:我在后台使用的是最新的EMR实例,文件在S3中。条带大小表示缓冲区memomry大小,它被指定用于将行存储更改为列存储,然后写入HDFS。因此,您在HDFS中看到的条带总是小于条带的大小(即64 MB)。将此作为评论发布感谢您的回复!然而,它并没有完全回答我的问题。为什么会有巨大的差异?您认为ORC文件转储中表示的条带大小实际上是压缩大小格式吗?