Hadoop apachedrill的性能_Hadoop_Hive_Impala_Apache Drill_Apache Tez

Hadoop apachedrill的性能

hadoop hive

Hadoop apachedrill的性能,hadoop,hive,impala,apache-drill,apache-tez,Hadoop,Hive,Impala,Apache Drill,Apache Tez,有没有比较毒刺、黑斑羚和钻头的性能基准（正品）？另外，哪一个是首选的？我的用例主要针对配置单元顶部的即席交互查询。谢谢。网站上有一些性能数据总的来说，我们看到Drill和Impala在交互查询的性能上是相当的，Drill的区别在于它能够在没有元数据定义的情况下进行查询，并且易于使用JSON数据请注意，这些测试是在更旧的版本上进行的，比如0.8/0.9（也没有针对数据位置进行适当配置）。现在Drill是1.1，在SQL（窗口函数等）和性能方面有很多改进你不能这样做基准测试，这毫无意义，你永远

有没有比较毒刺、黑斑羚和钻头的性能基准（正品）？另外，哪一个是首选的？我的用例主要针对配置单元顶部的即席交互查询。谢谢。

网站上有一些性能数据

总的来说，我们看到Drill和Impala在交互查询的性能上是相当的，Drill的区别在于它能够在没有元数据定义的情况下进行查询，并且易于使用JSON数据

请注意，这些测试是在更旧的版本上进行的，比如0.8/0.9（也没有针对数据位置进行适当配置）。现在Drill是1.1，在SQL（窗口函数等）和性能方面有很多改进

你不能这样做基准测试，这毫无意义，你永远不应该相信这样的基准测试

一切都取决于你自己的数据，你有JSON文件吗？我更喜欢练习。您希望查询超过1TB的数据，首选配置单元等

也可以考虑文件格式、JSON、库杜、实木地板或ORC。然后是优化，Hive+Tez对于Pararel查询似乎更好，但对于单个查询则非常慢。而黑斑羚正好相反（MapReduce与MassivePararelProcessing）

也要考虑硬件重设、磁盘SSD等。

我建议，从apachedrill+JSON文件开始，然后尝试使用镶木地板或ORC的apachedrill

如果您需要帮助，请准确描述您拥有的（数据+硬件）和您想要的。

感谢您的回复，您对Stinger.next有何看法？它与钻孔相比如何？确定哪一个更快的基准测试？另外，在处理TBs数据集时，Drill可以执行吗？我读到Impala和Presto不适合在大型数据集上进行复杂查询。嗨，Thomas，我正在尝试在一个具有512 GB RAM和48个CPU的节点上运行大型钻孔查询。对于大约30 GB的数据，查询运行时间太长。完成所有记录的汇总需要1个多小时。您有任何我需要检查的调整参数吗？1节点？你必须明白什么是训练，比如普雷斯托德，黑斑羚。。。这是一个MPP大规模并行处理引擎，因此，最好有几个节点^^^^因为我们有48个CPU，我们可以在这些CPU之间并行吗？我猜他可能会说的是，演练的重点是将工作分配给许多小型廉价工人，以处理大量数据。如果您的所有数据都可以存储在内存中，那么您最好使用其他数据，内存中有一些很棒的数据库。