Sorting 配置单元-在索引或排序列中搜索,读取整个存储桶
配置单元中的查询不使用排序,读取整个存储桶。这是正常的还是误解 表:Sorting 配置单元-在索引或排序列中搜索,读取整个存储桶,sorting,hive,bucket,orc,Sorting,Hive,Bucket,Orc,配置单元中的查询不使用排序,读取整个存储桶。这是正常的还是误解 表: col_a; col_b; values; 规格: 我的桌子是按“col_a”列扣好并分类的 表具有ORC格式 结果: 当我查询“colu_a”时,将读取整个存储桶 当我索引“colu_b”并查询“col_b”时,读取的数据量超过一整桶 表配置: inputFormat:org.apache.hadoop.hive.ql.io.orc.orInputFormat outputFormat:org.apache.ha
col_a; col_b; values;
- 我的桌子是按“col_a”列扣好并分类的李>
- 表具有ORC格式
- 当我查询“colu_a”时,将读取整个存储桶
- 当我索引“colu_b”并查询“col_b”时,读取的数据量超过一整桶
- inputFormat:org.apache.hadoop.hive.ql.io.orc.orInputFormat
- outputFormat:org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat
- serializationLib:org.apache.hadoop.hive.ql.io.orc.OrcSerde
- 巴克特科尔斯:[col_a]
- sortCols:col_a
- 订单:1
hive.enforce.sorting=true;
hive.enforce.bucketing=true;
FROM table_temp
INSERT OVERWRITE TABLE table_sorted PARTITION (date=1) SELECT
col_a,
col_b
DISTRIBUTE BY col_a SORT BY col_a;
SELECT * from table_sorted where date=1 AND col_a=986123;