Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 普雷斯托、蜂巢和黑斑羚三者是否都支持Avro数据格式?_Hadoop_Hive_Impala_Presto - Fatal编程技术网

Hadoop 普雷斯托、蜂巢和黑斑羚三者是否都支持Avro数据格式?

Hadoop 普雷斯托、蜂巢和黑斑羚三者是否都支持Avro数据格式?,hadoop,hive,impala,presto,Hadoop,Hive,Impala,Presto,我很清楚Hive中支持Avro数据格式模式的Serde。将avro与蜂箱配合使用时感觉舒适 比如说,我发现这个问题不利于普雷斯托。 我需要选择快速执行周期的组件。Presto和impala提供了更小的执行周期。 所以,请允许我澄清,在不同的数据格式中哪一种更好。 首先,我现在正在寻找Presto对avro的支持 但是,请考虑存储在HDFS:< /P>以下的数据格式 Avro格式 拼花地板格式 Orc格式 这是在不同数据格式上高性能使用的最佳选择。 ?? 请建议。 Impala可以读取Avro

我很清楚Hive中支持Avro数据格式模式的Serde。将avro与蜂箱配合使用时感觉舒适

比如说,我发现这个问题不利于普雷斯托。

我需要选择快速执行周期的组件。Presto和impala提供了更小的执行周期。 所以,请允许我澄清,在不同的数据格式中哪一种更好。 首先,我现在正在寻找Presto对avro的支持

但是,请考虑存储在HDFS:< /P>以下的数据格式

  • Avro格式
  • 拼花地板格式
  • Orc格式
  • 这是在不同数据格式上高性能使用的最佳选择。 ?? 请建议。

    • Impala可以读取Avro数据,但不能写入。请参阅描述Impala支持的文件格式

    • Hive读取和写入Avro文件

    • Presto的蜂巢连接器也支持Avro。感谢大卫·菲利普斯的指点


    互联网上有不同的绩效基准,但是我不想链接到具体的一个,因为结果在很大程度上取决于基准测试的确切用例。

    Impala是一个查询引擎,主要用于查询Hive中已经存在的表。我的问题是选择查询引擎和技术堆栈的更好方法是什么。我知道impala只是cloudera提供的查询引擎。然而,我在这里寻找比较研究。比如说,hiveQL从表中选择计数(*)需要23秒,而presto SQL对于相同的集群大小需要2秒。那么,impala的性能如何?同一数据集的不同数据格式的性能如何?谢谢!!这没有给出什么答案,但我仍然在寻找presto的见解。presto现在支持Avro:感谢zoltan和david,但是我尝试了Avro支持,但是presto无法读取Avro数据的模式。我们在presto git hub上开了一张票。然而,presto团队的反应非常缓慢。假设模式alsowe已经从AvroSerde尝试了一个解决方案,并且它对Presto查询有效。这里的要点是:将avro模式指定为TBLProperty(avro.schema.literal=“{..}”),例如:TBLProperty('avro.schema.literal'='{“namespace”:“com.howdy”,“name”:“some_schema”,“type”:“record”,“fields”:[{“name”:“string1”,“type”:“string”}]);“avro.schema.url”TBLProperty存在问题。Presto和throw架构未发现异常无法理解此属性。