Scala 具有ORC性能的Hive on Tez真的比Spark SQL for ETL更好吗？_Scala_Hadoop_Apache Spark_Hive_Tez

Scala 具有ORC性能的Hive on Tez真的比Spark SQL for ETL更好吗？

scala hadoop apache-spark hive

Scala 具有ORC性能的Hive on Tez真的比Spark SQL for ETL更好吗？,scala,hadoop,apache-spark,hive,tez,Scala,Hadoop,Apache Spark,Hive,Tez,我在蜂巢方面没有什么经验，目前正在使用Scala学习Spark。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了很多有测试结果的论坛，但他们比较了Spark的旧版本，其中大多数是在2015年编写的。主要要点概述如下兽人将做同样的拼花在火花 Tez发动机将提供更好的性能，如火花发动机在配置单元中连接比Spark更好/更快我觉得Hortonworks比Spark和Cloudera更支持Hive，反之亦然示例链接：起初我认为Spark会比任何东西都快，因为它们在内

我在蜂巢方面没有什么经验，目前正在使用Scala学习Spark。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了很多有测试结果的论坛，但他们比较了Spark的旧版本，其中大多数是在2015年编写的。主要要点概述如下

兽人将做同样的拼花在火花
Tez发动机将提供更好的性能，如火花发动机
在配置单元中连接比Spark更好/更快

我觉得Hortonworks比Spark和Cloudera更支持Hive，反之亦然

示例链接：

起初我认为Spark会比任何东西都快，因为它们在内存中执行。在读了一些文章之后，我得到了一些现有的蜂巢，也得到了一些新概念的即兴创作，如Tez、ORC、LLAP等

当前使用PL/SQL Oracle运行并迁移到大数据，因为卷正在增加。我的需求是一种ETL批处理，包括每周批运行中涉及的数据细节。数据将很快大量增加

输入/查找数据为csv/文本格式，并更新为表格
两个有500万行和30列的输入表
30个查找表，用于生成输出表的每一列，其中包含约1000万行和220列
由于使用了许多查找表，所以涉及了多个联接，如内部联接和左外部联接

请告知我应该选择以下哪一种方法，以获得更好的可读性，并易于在列上包含小的更新，以便将来进行生产部署

方法1:

Tez上的蜂巢和兽人桌
Python-UDF-thru转换选项
使用性能调优连接，如映射连接

方法2:

SparkSQL，拼花格式，从text/csv转换
自定义项的Scala
希望我们能在Spark中执行多个内外连接

火花
泰兹
地图还原