Apache spark 如何估计Spark Shuffle所需的内存和磁盘?
使用Spark SQL时,如何估计Spark Shuffle所需的内存和磁盘 SQL: 选择键,从表中按键分组收集集合(值) 如果表a有N行,K个键,每行是b字节, 我可以使用C内核,有没有办法估计spark shuffle所需的内存和磁盘Apache spark 如何估计Spark Shuffle所需的内存和磁盘?,apache-spark,apache-spark-sql,spark-dataframe,shuffle,Apache Spark,Apache Spark Sql,Spark Dataframe,Shuffle,使用Spark SQL时,如何估计Spark Shuffle所需的内存和磁盘 SQL: 选择键,从表中按键分组收集集合(值) 如果表a有N行,K个键,每行是b字节, 我可以使用C内核,有没有办法估计spark shuffle所需的内存和磁盘 spark版本:2.1.0,使用基于排序的洗牌。在不对键和值分布进行任何假设的情况下,最坏的情况是: K-1仅具有单个值的键 1个键具有N-K+1唯一值 假设哈希函数的属性保持不变,并且密钥在内核之间均匀分布,这将提供内存 (((N - K + 1) /
spark版本:2.1.0,使用基于排序的洗牌。在不对键和值分布进行任何假设的情况下,最坏的情况是:
仅具有单个值的键K-1
- 1个键具有
唯一值N-K+1
(((N - K + 1) / C + N - K + 1) * bytes) * serialization_efficiency
对于具有最高负载的内核,峰值内存需求应与成比例(如果可以从磁盘加载数据):
(N - K + 1) * bytes