Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 为什么spark sql cpu利用率高于配置单元?_Apache Spark_Hive_Cpu Usage - Fatal编程技术网

Apache spark 为什么spark sql cpu利用率高于配置单元?

Apache spark 为什么spark sql cpu利用率高于配置单元?,apache-spark,hive,cpu-usage,Apache Spark,Hive,Cpu Usage,我在配置单元和Spark SQL中执行相同的查询。我们知道Spark比hive快,所以我得到了预期的响应时间 但当我们考虑CPU利用率时, 火花加工所需时间大于300% 而蜂巢则占据了近150%的市场份额 这是火花和蜂巢的本质吗 还需要考虑哪些其他指标 如何正确评估两者 大局 火花没有超能力。与MapReduce相比,it的优势在于它更倾向于快速的内存访问,而不是依赖于分布式存储的较慢的内核外处理。因此,它的核心是缩短IO等待时间 结论 预计平均CPU利用率会更高。假设你想计算N个数的和。

我在配置单元和Spark SQL中执行相同的查询。我们知道Spark比hive快,所以我得到了预期的响应时间

但当我们考虑CPU利用率时,

  • 火花加工所需时间大于300%
  • 而蜂巢则占据了近150%的市场份额
这是火花和蜂巢的本质吗

  • 还需要考虑哪些其他指标
  • 如何正确评估两者

    • 大局

      火花没有超能力。与MapReduce相比,it的优势在于它更倾向于快速的内存访问,而不是依赖于分布式存储的较慢的内核外处理。因此,它的核心是缩短IO等待时间

      结论

      预计平均CPU利用率会更高。假设你想计算N个数的和。与实现无关,渐近操作数将是相同的。但是,如果数据在内存中,您可以预期较低的总时间和较高的平均CPU使用率,而如果数据在磁盘上,您可以预期较高的总时间和较低的平均CPU使用率(较高的IO等待)

      一些评论

      • Spark和Hive的设计目标并不相同。Spark更像是ETL/流式ETL工具、配置单元数据库/数据仓库。这意味着引擎盖下的优化不同,根据工作负载的不同,性能可能会有很大差异

        在没有上下文的情况下比较资源使用情况没有多大意义

      • 总的来说,Spark不那么保守,更需要资源。它既反映了设计目标,也反映了硬件的发展。Spark比Spark年轻几岁,硬件成本大幅下降就足够了


        • 大局

          火花没有超能力。与MapReduce相比,it的优势在于它更倾向于快速的内存访问,而不是依赖于分布式存储的较慢的内核外处理。因此,它的核心是缩短IO等待时间

          结论

          预计平均CPU利用率会更高。假设你想计算N个数的和。与实现无关,渐近操作数将是相同的。但是,如果数据在内存中,您可以预期较低的总时间和较高的平均CPU使用率,而如果数据在磁盘上,您可以预期较高的总时间和较低的平均CPU使用率(较高的IO等待)

          一些评论

          • Spark和Hive的设计目标并不相同。Spark更像是ETL/流式ETL工具、配置单元数据库/数据仓库。这意味着引擎盖下的优化不同,根据工作负载的不同,性能可能会有很大差异

            在没有上下文的情况下比较资源使用情况没有多大意义

          • 总的来说,Spark不那么保守,更需要资源。它既反映了设计目标,也反映了硬件的发展。Spark比Spark年轻几岁,硬件成本大幅下降就足够了


          可以优化Hive,使其在正确的硬件上比Spark运行得更快,顺便问一下,您是否为两者分配了相同的资源(容器/cpu)?配置单元使用队列机制,而spark指定我可以优化配置,使其在正确的硬件上比spark运行得更快,顺便问一下,您是否为两者分配相同的资源(容器/cpu)?配置单元使用队列机制,而spark指定它