Apache spark apache Spark中RDD的高缓存大小
我正在读取一个约20MB的文本文件,该文件由几行空格分隔的整数组成,转换为RDD并缓存它。在缓存方面,我观察到,它在RAM上消耗了约200MB的内存! 我不明白它为什么要消耗如此高的RAM(x10)来缓存Apache spark apache Spark中RDD的高缓存大小,apache-spark,rdd,Apache Spark,Rdd,我正在读取一个约20MB的文本文件,该文件由几行空格分隔的整数组成,转换为RDD并缓存它。在缓存方面,我观察到,它在RAM上消耗了约200MB的内存! 我不明白它为什么要消耗如此高的RAM(x10)来缓存 val filea = sc.textFile("a.txt") val fileamapped = filea.map(_.split(" ").map(_.toInt)) fileamapped.persist(org.apache.spark.storage.StorageLevel.
val filea = sc.textFile("a.txt")
val fileamapped = filea.map(_.split(" ").map(_.toInt))
fileamapped.persist(org.apache.spark.storage.StorageLevel.MEMORY_ONLY)
fileamapped.collect()
我在本地交互模式下运行Spark(Spark shell)并从HDFS读取数据文件
问题
谢谢,您是如何观察缓存大小的?在collect()调用之前和之后在本地计算机上释放mem-m。群集web UI不工作,因此无法在其中查看缓存大小。