Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark apache Spark中RDD的高缓存大小_Apache Spark_Rdd - Fatal编程技术网

Apache spark apache Spark中RDD的高缓存大小

Apache spark apache Spark中RDD的高缓存大小,apache-spark,rdd,Apache Spark,Rdd,我正在读取一个约20MB的文本文件,该文件由几行空格分隔的整数组成,转换为RDD并缓存它。在缓存方面,我观察到,它在RAM上消耗了约200MB的内存! 我不明白它为什么要消耗如此高的RAM(x10)来缓存 val filea = sc.textFile("a.txt") val fileamapped = filea.map(_.split(" ").map(_.toInt)) fileamapped.persist(org.apache.spark.storage.StorageLevel.

我正在读取一个约20MB的文本文件,该文件由几行空格分隔的整数组成,转换为RDD并缓存它。在缓存方面,我观察到,它在RAM上消耗了约200MB的内存! 我不明白它为什么要消耗如此高的RAM(x10)来缓存

val filea = sc.textFile("a.txt")
val fileamapped = filea.map(_.split(" ").map(_.toInt)) 
fileamapped.persist(org.apache.spark.storage.StorageLevel.MEMORY_ONLY)
fileamapped.collect()
我在本地交互模式下运行Spark(Spark shell)并从HDFS读取数据文件

问题

  • 高速缓存使用高RAM背后的原因
  • 有没有一种方法可以直接从文件中读取整数,sc.textFile给我RDD[String]
  • 我用estimate()方法检查了FileMapped,结果显示大小约为64MB,是否为JAVA组件大小

  • 谢谢,

    您是如何观察缓存大小的?在collect()调用之前和之后在本地计算机上释放mem-m。群集web UI不工作,因此无法在其中查看缓存大小。