Scala 具有ORC性能的Hive on Tez真的比Spark SQL for ETL更好吗?
我在蜂巢方面没有什么经验,目前正在使用Scala学习Spark。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了很多有测试结果的论坛,但他们比较了Spark的旧版本,其中大多数是在2015年编写的。主要要点概述如下Scala 具有ORC性能的Hive on Tez真的比Spark SQL for ETL更好吗?,scala,hadoop,apache-spark,hive,tez,Scala,Hadoop,Apache Spark,Hive,Tez,我在蜂巢方面没有什么经验,目前正在使用Scala学习Spark。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了很多有测试结果的论坛,但他们比较了Spark的旧版本,其中大多数是在2015年编写的。主要要点概述如下 兽人将做同样的拼花在火花 Tez发动机将提供更好的性能,如火花发动机 在配置单元中连接比Spark更好/更快 我觉得Hortonworks比Spark和Cloudera更支持Hive,反之亦然 示例链接: 起初我认为Spark会比任何东西都快,因为它们在内
- 兽人将做同样的拼花在火花
- Tez发动机将提供更好的性能,如火花发动机
- 在配置单元中连接比Spark更好/更快
- 输入/查找数据为csv/文本格式,并更新为表格
- 两个有500万行和30列的输入表
- 30个查找表,用于生成输出表的每一列,其中包含约1000万行和220列李>
- 由于使用了许多查找表,所以涉及了多个联接,如内部联接和左外部联接
- Tez上的蜂巢和兽人桌
- Python-UDF-thru转换选项
- 使用性能调优连接,如映射连接
- SparkSQL,拼花格式,从text/csv转换
- 自定义项的Scala
- 希望我们能在Spark中执行多个内外连接
- 火花
- 泰兹
- 地图还原
- 实施问题解决方案的最佳方法如下
要将数据加载到表中,spark看起来是一个不错的选择。您可以从配置单元元存储中读取表,使用某种窗口功能执行增量更新,并在配置单元中注册它们。当从各种查找表中填充数据时,您可以在scala中以编程方式编写代码
但归根结底,需要一个非常易于使用的查询引擎。当spark程序向配置单元注册表时,可以使用配置单元
配置单元支持三个执行引擎
在hive中创建业务用户。很容易得出错误结论。1.Hive和tez有很多影响性能的配置。2.好的SQL比工具、文件格式和执行引擎更重要。