Apache spark apache Spark中RDD的高缓存大小_Apache Spark_Rdd

Apache spark apache Spark中RDD的高缓存大小

apache-spark

Apache spark apache Spark中RDD的高缓存大小,apache-spark,rdd,Apache Spark,Rdd,我正在读取一个约20MB的文本文件，该文件由几行空格分隔的整数组成，转换为RDD并缓存它。在缓存方面，我观察到，它在RAM上消耗了约200MB的内存！我不明白它为什么要消耗如此高的RAM（x10）来缓存 val filea = sc.textFile("a.txt") val fileamapped = filea.map(_.split(" ").map(_.toInt)) fileamapped.persist(org.apache.spark.storage.StorageLevel.

我正在读取一个约20MB的文本文件，该文件由几行空格分隔的整数组成，转换为RDD并缓存它。在缓存方面，我观察到，它在RAM上消耗了约200MB的内存！我不明白它为什么要消耗如此高的RAM（x10）来缓存

val filea = sc.textFile("a.txt")
val fileamapped = filea.map(_.split(" ").map(_.toInt)) 
fileamapped.persist(org.apache.spark.storage.StorageLevel.MEMORY_ONLY)
fileamapped.collect()

我在本地交互模式下运行Spark（Spark shell）并从HDFS读取数据文件

问题

高速缓存使用高RAM背后的原因

有没有一种方法可以直接从文件中读取整数，sc.textFile给我RDD[String]

我用estimate（）方法检查了FileMapped，结果显示大小约为64MB，是否为JAVA组件大小

谢谢，

您是如何观察缓存大小的？在collect（）调用之前和之后在本地计算机上释放mem-m。群集web UI不工作，因此无法在其中查看缓存大小。