Hive 限制速度的因素有哪些?

Hive 限制速度的因素有哪些?,hive,presto,Hive,Presto,我今天刚刚在工作时(版本0.57)和从日志中选择计数(*)时在服务器上安装了Presto;对于一个只有6.4亿条记录(约64GB)的表,需要17分钟以上的时间 现在我的印象是,这对普雷斯托来说太慢了,但我不确定 一些信息: Hive和Presto都是使用文档中的默认配置安装的 Hive table是一个外部表,大约有24列,其中大多数是字符串,其中3列是数组,文件存储为Textfile(Hive因某种原因向my file抱怨RCFile) 该表主要用于分组和计数操作 您是否有提高性能的技巧,或者

我今天刚刚在工作时(版本0.57)和从日志中选择计数(*)时在服务器上安装了Presto;对于一个只有6.4亿条记录(约64GB)的表,需要17分钟以上的时间

现在我的印象是,这对普雷斯托来说太慢了,但我不确定

一些信息:

Hive和Presto都是使用文档中的默认配置安装的

Hive table是一个外部表,大约有24列,其中大多数是字符串,其中3列是数组,文件存储为Textfile(Hive因某种原因向my file抱怨RCFile)

该表主要用于分组和计数操作

您是否有提高性能的技巧,或者对于一个表的简单计数(*),目标查询时间应该是多少


干杯

您应该用RCFile解决您的问题。使用RCFile将显著提高性能(开发人员说x2-x4符合我的经验)。尝试使用
createtable作为SELECT*FROM进行转换在Presto中。(请确保磁盘上有足够的空间。)