Performance Spark UI:如何理解DAG中的最小值/中间值/最大值
我想完全理解有关min/med/max的信息的含义 例如:Performance Spark UI:如何理解DAG中的最小值/中间值/最大值,performance,apache-spark,apache-spark-sql,bigdata,spark-ui,Performance,Apache Spark,Apache Spark Sql,Bigdata,Spark Ui,我想完全理解有关min/med/max的信息的含义 例如: scan time total(min, med, max) 34m(3.1s, 10.8s, 15.1s) 在所有核心中,最小扫描时间是3.1s,最大扫描时间是15.1,累计总时间是34分钟,对吗 那么 data size total (min, med, max) 8.2GB(41.5MB, 42.2MB, 43.6MB) 在所有内核中,最大使用量是43.6MB,最小使用量是41.5MB,对吗 同样的逻辑,对于左边的排序步骤,每
scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)
在所有核心中,最小扫描时间是3.1s,最大扫描时间是15.1,累计总时间是34分钟,对吗
那么
data size total (min, med, max)
8.2GB(41.5MB, 42.2MB, 43.6MB)
在所有内核中,最大使用量是43.6MB,最小使用量是41.5MB,对吗
同样的逻辑,对于左边的排序步骤,每个内核使用了80MB的ram
现在,executor有4个内核和6G RAM,根据metrix,我认为已经留出了很多RAM,因为每个内核最多可以使用1G左右的RAM。所以我想尝试减少分区数,强制每个执行者处理更多的数据,减少洗牌大小,你们认为理论上可能吗