Hadoop 普雷斯托、蜂巢和黑斑羚三者是否都支持Avro数据格式？_Hadoop_Hive_Impala_Presto

Hadoop 普雷斯托、蜂巢和黑斑羚三者是否都支持Avro数据格式？

hadoop hive

Hadoop 普雷斯托、蜂巢和黑斑羚三者是否都支持Avro数据格式？,hadoop,hive,impala,presto,Hadoop,Hive,Impala,Presto,我很清楚Hive中支持Avro数据格式模式的Serde。将avro与蜂箱配合使用时感觉舒适比如说，我发现这个问题不利于普雷斯托。我需要选择快速执行周期的组件。Presto和impala提供了更小的执行周期。所以，请允许我澄清，在不同的数据格式中哪一种更好。首先，我现在正在寻找Presto对avro的支持但是，请考虑存储在HDFS:< /P>以下的数据格式 Avro格式拼花地板格式 Orc格式这是在不同数据格式上高性能使用的最佳选择。 ?? 请建议。 Impala可以读取Avro

我很清楚Hive中支持Avro数据格式模式的Serde。将avro与蜂箱配合使用时感觉舒适

比如说，我发现这个问题不利于普雷斯托。

我需要选择快速执行周期的组件。Presto和impala提供了更小的执行周期。所以，请允许我澄清，在不同的数据格式中哪一种更好。首先，我现在正在寻找Presto对avro的支持

但是，请考虑存储在HDFS:< /P>以下的数据格式

Avro格式

拼花地板格式

Orc格式

这是在不同数据格式上高性能使用的最佳选择。 ?? 请建议。

Impala可以读取Avro数据，但不能写入。请参阅描述Impala支持的文件格式
Hive读取和写入Avro文件
Presto的蜂巢连接器也支持Avro。感谢大卫·菲利普斯的指点

互联网上有不同的绩效基准，但是我不想链接到具体的一个，因为结果在很大程度上取决于基准测试的确切用例。
Impala是一个查询引擎，主要用于查询Hive中已经存在的表。我的问题是选择查询引擎和技术堆栈的更好方法是什么。我知道impala只是cloudera提供的查询引擎。然而，我在这里寻找比较研究。比如说，hiveQL从表中选择计数（*）需要23秒，而presto SQL对于相同的集群大小需要2秒。那么，impala的性能如何？同一数据集的不同数据格式的性能如何？谢谢！！这没有给出什么答案，但我仍然在寻找presto的见解。presto现在支持Avro：感谢zoltan和david，但是我尝试了Avro支持，但是presto无法读取Avro数据的模式。我们在presto git hub上开了一张票。然而，presto团队的反应非常缓慢。假设模式alsowe已经从AvroSerde尝试了一个解决方案，并且它对Presto查询有效。这里的要点是：将avro模式指定为TBLProperty（avro.schema.literal=“{..}”），例如：TBLProperty（'avro.schema.literal'='{“namespace”：“com.howdy”，“name”：“some_schema”，“type”：“record”，“fields”：[{“name”：“string1”，“type”：“string”}]）；“avro.schema.url”TBLProperty存在问题。Presto和throw架构未发现异常无法理解此属性。