Apache spark 为什么spark sql cpu利用率高于配置单元？_Apache Spark_Hive_Cpu Usage

Apache spark 为什么spark sql cpu利用率高于配置单元？

apache-spark hive

Apache spark 为什么spark sql cpu利用率高于配置单元？,apache-spark,hive,cpu-usage,Apache Spark,Hive,Cpu Usage,我在配置单元和Spark SQL中执行相同的查询。我们知道Spark比hive快，所以我得到了预期的响应时间但当我们考虑CPU利用率时，火花加工所需时间大于300% 而蜂巢则占据了近150%的市场份额这是火花和蜂巢的本质吗还需要考虑哪些其他指标如何正确评估两者大局火花没有超能力。与MapReduce相比，it的优势在于它更倾向于快速的内存访问，而不是依赖于分布式存储的较慢的内核外处理。因此，它的核心是缩短IO等待时间结论预计平均CPU利用率会更高。假设你想计算N个数的和。

我在配置单元和Spark SQL中执行相同的查询。我们知道Spark比hive快，所以我得到了预期的响应时间

但当我们考虑CPU利用率时，

火花加工所需时间大于300%
而蜂巢则占据了近150%的市场份额

这是火花和蜂巢的本质吗

还需要考虑哪些其他指标
如何正确评估两者

大局
火花没有超能力。与MapReduce相比，it的优势在于它更倾向于快速的内存访问，而不是依赖于分布式存储的较慢的内核外处理。因此，它的核心是缩短IO等待时间
结论
预计平均CPU利用率会更高。假设你想计算N个数的和。与实现无关，渐近操作数将是相同的。但是，如果数据在内存中，您可以预期较低的总时间和较高的平均CPU使用率，而如果数据在磁盘上，您可以预期较高的总时间和较低的平均CPU使用率（较高的IO等待）
一些评论：

Spark和Hive的设计目标并不相同。Spark更像是ETL/流式ETL工具、配置单元数据库/数据仓库。这意味着引擎盖下的优化不同，根据工作负载的不同，性能可能会有很大差异
在没有上下文的情况下比较资源使用情况没有多大意义

总的来说，Spark不那么保守，更需要资源。它既反映了设计目标，也反映了硬件的发展。Spark比Spark年轻几岁，硬件成本大幅下降就足够了

大局
火花没有超能力。与MapReduce相比，it的优势在于它更倾向于快速的内存访问，而不是依赖于分布式存储的较慢的内核外处理。因此，它的核心是缩短IO等待时间
结论
预计平均CPU利用率会更高。假设你想计算N个数的和。与实现无关，渐近操作数将是相同的。但是，如果数据在内存中，您可以预期较低的总时间和较高的平均CPU使用率，而如果数据在磁盘上，您可以预期较高的总时间和较低的平均CPU使用率（较高的IO等待）
一些评论：

Spark和Hive的设计目标并不相同。Spark更像是ETL/流式ETL工具、配置单元数据库/数据仓库。这意味着引擎盖下的优化不同，根据工作负载的不同，性能可能会有很大差异
在没有上下文的情况下比较资源使用情况没有多大意义

总的来说，Spark不那么保守，更需要资源。它既反映了设计目标，也反映了硬件的发展。Spark比Spark年轻几岁，硬件成本大幅下降就足够了

可以优化Hive，使其在正确的硬件上比Spark运行得更快，顺便问一下，您是否为两者分配了相同的资源（容器/cpu）？配置单元使用队列机制，而spark指定我可以优化配置，使其在正确的硬件上比spark运行得更快，顺便问一下，您是否为两者分配相同的资源（容器/cpu）？配置单元使用队列机制，而spark指定它