Apache spark 如果没有足够的内存（RAM）来创建RDD，spark如何工作_Apache Spark_Bigdata

Apache spark 如果没有足够的内存（RAM）来创建RDD，spark如何工作

apache-spark

Apache spark 如果没有足够的内存（RAM）来创建RDD，spark如何工作,apache-spark,bigdata,Apache Spark,Bigdata,当我执行sc.textFileabc.txt时 Spark在RAM内存中创建RDD 那么集群集体内存是否应该大于文件“abc.txt”的大小呢我的工作节点有磁盘空间，所以我可以在读取texfile创建RDD时使用磁盘空间吗？如果是，怎么做如何处理不适合存储的大数据你的第一个假设是不正确的： Spark在RAM内存中创建RDD Spark不会在内存中创建RDD。它使用内存，但不限于内存中的数据处理。因此：那么集群集体内存是否应该大于文件“abc.txt”的大小呢没有我的工作节点有磁盘空

当我执行sc.textFileabc.txt时 Spark在RAM内存中创建RDD

那么集群集体内存是否应该大于文件“abc.txt”的大小呢

我的工作节点有磁盘空间，所以我可以在读取texfile创建RDD时使用磁盘空间吗？如果是，怎么做

如何处理不适合存储的大数据

你的第一个假设是不正确的：

Spark在RAM内存中创建RDD

Spark不会在内存中创建RDD。它使用内存，但不限于内存中的数据处理。因此：

那么集群集体内存是否应该大于文件“abc.txt”的大小呢

没有

我的工作节点有磁盘空间，所以我可以在读取texfile创建RDD时使用磁盘空间吗？如果是，怎么做

无需特殊步骤

如何处理不适合存储的大数据

见上文

当我执行sc.textFileabc.txt时，Spark会在RAM内存中创建RDD

上述观点不一定正确。在Spark中，他们的名字叫做。sc.textFileabc.txt是一种转换操作，它不会直接加载数据，除非您触发任何操作，例如count

为了给你们所有问题的集体答案，我敦促你们理解如何解决这些问题。它们被称为逻辑和物理计划。作为物理计划的一部分，它在开始作业之前跨集群进行成本计算可用资源计算。如果你理解了他们，你就会对你所有的问题有清晰的认识