Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 具有ORC性能的Hive on Tez真的比Spark SQL for ETL更好吗?_Scala_Hadoop_Apache Spark_Hive_Tez - Fatal编程技术网

Scala 具有ORC性能的Hive on Tez真的比Spark SQL for ETL更好吗?

Scala 具有ORC性能的Hive on Tez真的比Spark SQL for ETL更好吗?,scala,hadoop,apache-spark,hive,tez,Scala,Hadoop,Apache Spark,Hive,Tez,我在蜂巢方面没有什么经验,目前正在使用Scala学习Spark。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了很多有测试结果的论坛,但他们比较了Spark的旧版本,其中大多数是在2015年编写的。主要要点概述如下 兽人将做同样的拼花在火花 Tez发动机将提供更好的性能,如火花发动机 在配置单元中连接比Spark更好/更快 我觉得Hortonworks比Spark和Cloudera更支持Hive,反之亦然 示例链接: 起初我认为Spark会比任何东西都快,因为它们在内

我在蜂巢方面没有什么经验,目前正在使用Scala学习Spark。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了很多有测试结果的论坛,但他们比较了Spark的旧版本,其中大多数是在2015年编写的。主要要点概述如下

  • 兽人将做同样的拼花在火花
  • Tez发动机将提供更好的性能,如火花发动机
  • 在配置单元中连接比Spark更好/更快
我觉得Hortonworks比Spark和Cloudera更支持Hive,反之亦然

示例链接:

起初我认为Spark会比任何东西都快,因为它们在内存中执行。在读了一些文章之后,我得到了一些现有的蜂巢,也得到了一些新概念的即兴创作,如Tez、ORC、LLAP等

当前使用PL/SQL Oracle运行并迁移到大数据,因为卷正在增加。我的需求是一种ETL批处理,包括每周批运行中涉及的数据细节。数据将很快大量增加

  • 输入/查找数据为csv/文本格式,并更新为表格

  • 两个有500万行和30列的输入表

  • 30个查找表,用于生成输出表的每一列,其中包含约1000万行和220列
  • 由于使用了许多查找表,所以涉及了多个联接,如内部联接和左外部联接
请告知我应该选择以下哪一种方法,以获得更好的可读性,并易于在列上包含小的更新,以便将来进行生产部署

方法1:

  • Tez上的蜂巢和兽人桌
  • Python-UDF-thru转换选项
  • 使用性能调优连接,如映射连接
方法2:

  • SparkSQL,拼花格式,从text/csv转换
  • 自定义项的Scala
  • 希望我们能在Spark中执行多个内外连接

    • 实施问题解决方案的最佳方法如下

      要将数据加载到表中,spark看起来是一个不错的选择。您可以从配置单元元存储中读取表,使用某种窗口功能执行增量更新,并在配置单元中注册它们。当从各种查找表中填充数据时,您可以在scala中以编程方式编写代码

      但归根结底,需要一个非常易于使用的查询引擎。当spark程序向配置单元注册表时,可以使用配置单元

      配置单元支持三个执行引擎

      • 火花
      • 泰兹
      • 地图还原
      Tez已经成熟,spark也随着Facebook和社区的各种承诺而不断发展

      业务部门可以很容易地将hive理解为一个查询引擎,因为它在业界已经成熟得多

      简而言之,使用spark处理日常处理的数据,并将其注册到hive


      在hive中创建业务用户。

      很容易得出错误结论。1.Hive和tez有很多影响性能的配置。2.好的SQL比工具、文件格式和执行引擎更重要。