Apache spark 如果没有足够的内存(RAM)来创建RDD,spark如何工作

Apache spark 如果没有足够的内存(RAM)来创建RDD,spark如何工作,apache-spark,bigdata,Apache Spark,Bigdata,当我执行sc.textFileabc.txt时 Spark在RAM内存中创建RDD 那么集群集体内存是否应该大于文件“abc.txt”的大小呢 我的工作节点有磁盘空间,所以我可以在读取texfile创建RDD时使用磁盘空间吗?如果是,怎么做 如何处理不适合存储的大数据 你的第一个假设是不正确的: Spark在RAM内存中创建RDD Spark不会在内存中创建RDD。它使用内存,但不限于内存中的数据处理。因此: 那么集群集体内存是否应该大于文件“abc.txt”的大小呢 没有 我的工作节点有磁盘空

当我执行sc.textFileabc.txt时 Spark在RAM内存中创建RDD

那么集群集体内存是否应该大于文件“abc.txt”的大小呢

我的工作节点有磁盘空间,所以我可以在读取texfile创建RDD时使用磁盘空间吗?如果是,怎么做

如何处理不适合存储的大数据


你的第一个假设是不正确的:

Spark在RAM内存中创建RDD

Spark不会在内存中创建RDD。它使用内存,但不限于内存中的数据处理。因此:

那么集群集体内存是否应该大于文件“abc.txt”的大小呢

没有

我的工作节点有磁盘空间,所以我可以在读取texfile创建RDD时使用磁盘空间吗?如果是,怎么做

无需特殊步骤

如何处理不适合存储的大数据

见上文

当我执行sc.textFileabc.txt时,Spark会在RAM内存中创建RDD

上述观点不一定正确。在Spark中,他们的名字叫做。sc.textFileabc.txt是一种转换操作,它不会直接加载数据,除非您触发任何操作,例如count

为了给你们所有问题的集体答案,我敦促你们理解如何解决这些问题。它们被称为逻辑和物理计划。作为物理计划的一部分,它在开始作业之前跨集群进行成本计算可用资源计算。如果你理解了他们,你就会对你所有的问题有清晰的认识