Apache spark 为什么spark sql cpu利用率高于配置单元?
我在配置单元和Spark SQL中执行相同的查询。我们知道Spark比hive快,所以我得到了预期的响应时间Apache spark 为什么spark sql cpu利用率高于配置单元?,apache-spark,hive,cpu-usage,Apache Spark,Hive,Cpu Usage,我在配置单元和Spark SQL中执行相同的查询。我们知道Spark比hive快,所以我得到了预期的响应时间 但当我们考虑CPU利用率时, 火花加工所需时间大于300% 而蜂巢则占据了近150%的市场份额 这是火花和蜂巢的本质吗 还需要考虑哪些其他指标 如何正确评估两者 大局 火花没有超能力。与MapReduce相比,it的优势在于它更倾向于快速的内存访问,而不是依赖于分布式存储的较慢的内核外处理。因此,它的核心是缩短IO等待时间 结论 预计平均CPU利用率会更高。假设你想计算N个数的和。
但当我们考虑CPU利用率时,
- 火花加工所需时间大于300%
- 而蜂巢则占据了近150%的市场份额
- 还需要考虑哪些其他指标李>
- 如何正确评估两者
- Spark和Hive的设计目标并不相同。Spark更像是ETL/流式ETL工具、配置单元数据库/数据仓库。这意味着引擎盖下的优化不同,根据工作负载的不同,性能可能会有很大差异 在没有上下文的情况下比较资源使用情况没有多大意义
- 总的来说,Spark不那么保守,更需要资源。它既反映了设计目标,也反映了硬件的发展。Spark比Spark年轻几岁,硬件成本大幅下降就足够了
- Spark和Hive的设计目标并不相同。Spark更像是ETL/流式ETL工具、配置单元数据库/数据仓库。这意味着引擎盖下的优化不同,根据工作负载的不同,性能可能会有很大差异 在没有上下文的情况下比较资源使用情况没有多大意义
- 总的来说,Spark不那么保守,更需要资源。它既反映了设计目标,也反映了硬件的发展。Spark比Spark年轻几岁,硬件成本大幅下降就足够了
- 大局
火花没有超能力。与MapReduce相比,it的优势在于它更倾向于快速的内存访问,而不是依赖于分布式存储的较慢的内核外处理。因此,它的核心是缩短IO等待时间
结论
预计平均CPU利用率会更高。假设你想计算N个数的和。与实现无关,渐近操作数将是相同的。但是,如果数据在内存中,您可以预期较低的总时间和较高的平均CPU使用率,而如果数据在磁盘上,您可以预期较高的总时间和较低的平均CPU使用率(较高的IO等待)
一些评论:
- 大局
火花没有超能力。与MapReduce相比,it的优势在于它更倾向于快速的内存访问,而不是依赖于分布式存储的较慢的内核外处理。因此,它的核心是缩短IO等待时间
结论
预计平均CPU利用率会更高。假设你想计算N个数的和。与实现无关,渐近操作数将是相同的。但是,如果数据在内存中,您可以预期较低的总时间和较高的平均CPU使用率,而如果数据在磁盘上,您可以预期较高的总时间和较低的平均CPU使用率(较高的IO等待)
一些评论: