Hadoop 配置单元0.14由于增量文件过多而导致启用了acid的表性能问题

Hadoop 配置单元0.14由于增量文件过多而导致启用了acid的表性能问题,hadoop,hive,hortonworks-data-platform,Hadoop,Hive,Hortonworks Data Platform,我已经在hive 0.14中创建了具有ACID属性的表 我的示例创建表脚本: CREATE TABLE sample_test (id STRING, link STRING, came_from STRING) PARTITIONED BY (datestamp STRING) CLUSTERED BY (id) INTO 56 BUCKETS STORED AS ORC; 每当我执行更新/插入/删除操作时,它都会在hdfs中的每个分区目录下创建一个增量文件 如下图所示。目前在warehou

我已经在hive 0.14中创建了具有ACID属性的表

我的示例创建表脚本:

CREATE TABLE sample_test (id STRING, link STRING, came_from STRING)
PARTITIONED BY (datestamp STRING) CLUSTERED BY (id) INTO 56 BUCKETS STORED AS ORC;
每当我执行更新/插入/删除操作时,它都会在hdfs中的每个分区目录下创建一个增量文件 如下图所示。目前在warehouse目录中,我们有10多个增量文件,但根据hive-site.xml设置 每创建10个增量文件,应进行较小的压缩,并且每个增量文件下的增量文件不应超过10个 分区目录。但目前我可以在每个分区目录下看到10多个增量文件(实际上是15个)

/usr/hive/warehouse/db_path/sample_test/datestamp=2015-06-13/delta_000001_000001/bucket_0000_0000
/usr/hive/warehouse/db_path/sample_test/datestamp=2015-06-13/delta_000001_000001/bucket_0001_0001

/usr/hive/warehouse/db_path/sample_test/datestamp=2015-06-13/delta_000001_000001/bucket_0055_0055

/usr/hive/warehouse/db_path/sample_test/datestamp=2015-06-13/delta_000015_000015/bucket_0000_0000
因此,当我对这个表sample_测试执行select count(*)时,它会运行超过250秒以给出结果。 我在这个表中只有150条记录(样本测试)

我尝试使用下面的命令进行手动压缩,但仍然没有任何改进,增量文件数保持不变

ALTER TABLE tablename [PARTITION (partition_key='partition_value' [,...])] COMPACT 'compaction_type'
但当我从现有表创建表时,如下所示。只有基本文件被复制到ne表位置(没有增量文件),新表样本_test2上的我的选择计数(*)非常快(不到一秒钟,计数为150)

My hive-site.xml值如下所示:

hive.compactor.worker.timeout   86400 
hive.compactor.check.interval   300 
hive.compactor.delta.num.threshold  10L
hive.compactor.delta.pct.threshold  0.1f 
hive.compactor.abortedtxn.threshold 1 
请帮我解决这个问题

hive.compactor.worker.timeout   86400 
hive.compactor.check.interval   300 
hive.compactor.delta.num.threshold  10L
hive.compactor.delta.pct.threshold  0.1f 
hive.compactor.abortedtxn.threshold 1