Hadoop apachedrill的性能

Hadoop apachedrill的性能,hadoop,hive,impala,apache-drill,apache-tez,Hadoop,Hive,Impala,Apache Drill,Apache Tez,有没有比较毒刺、黑斑羚和钻头的性能基准(正品)?另外,哪一个是首选的?我的用例主要针对配置单元顶部的即席交互查询。谢谢。网站上有一些性能数据 总的来说,我们看到Drill和Impala在交互查询的性能上是相当的,Drill的区别在于它能够在没有元数据定义的情况下进行查询,并且易于使用JSON数据 请注意,这些测试是在更旧的版本上进行的,比如0.8/0.9(也没有针对数据位置进行适当配置)。现在Drill是1.1,在SQL(窗口函数等)和性能方面有很多改进 你不能这样做基准测试,这毫无意义,你永远

有没有比较毒刺、黑斑羚和钻头的性能基准(正品)?另外,哪一个是首选的?我的用例主要针对配置单元顶部的即席交互查询。谢谢。

网站上有一些性能数据

总的来说,我们看到Drill和Impala在交互查询的性能上是相当的,Drill的区别在于它能够在没有元数据定义的情况下进行查询,并且易于使用JSON数据


请注意,这些测试是在更旧的版本上进行的,比如0.8/0.9(也没有针对数据位置进行适当配置)。现在Drill是1.1,在SQL(窗口函数等)和性能方面有很多改进

你不能这样做基准测试,这毫无意义,你永远不应该相信这样的基准测试

一切都取决于你自己的数据,你有JSON文件吗?我更喜欢练习。您希望查询超过1TB的数据,首选配置单元等

也可以考虑文件格式、JSON、库杜、实木地板或ORC。 然后是优化,Hive+Tez对于Pararel查询似乎更好,但对于单个查询则非常慢。而黑斑羚正好相反(MapReduce与MassivePararelProcessing)

也要考虑硬件重设、磁盘SSD等。

我建议,从apachedrill+JSON文件开始,然后尝试使用镶木地板或ORC的apachedrill


如果您需要帮助,请准确描述您拥有的(数据+硬件)和您想要的。

感谢您的回复,您对Stinger.next有何看法?它与钻孔相比如何?确定哪一个更快的基准测试?另外,在处理TBs数据集时,Drill可以执行吗?我读到Impala和Presto不适合在大型数据集上进行复杂查询。嗨,Thomas,我正在尝试在一个具有512 GB RAM和48个CPU的节点上运行大型钻孔查询。对于大约30 GB的数据,查询运行时间太长。完成所有记录的汇总需要1个多小时。您有任何我需要检查的调整参数吗?1节点?你必须明白什么是训练,比如普雷斯托德,黑斑羚。。。这是一个MPP大规模并行处理引擎,因此,最好有几个节点^^^^因为我们有48个CPU,我们可以在这些CPU之间并行吗?我猜他可能会说的是,演练的重点是将工作分配给许多小型廉价工人,以处理大量数据。如果您的所有数据都可以存储在内存中,那么您最好使用其他数据,内存中有一些很棒的数据库。