Apache spark 当数据大小大于内存时，PySpark是否具有优势？_Apache Spark

Apache spark 当数据大小大于内存时，PySpark是否具有优势？

apache-spark

Apache spark 当数据大小大于内存时，PySpark是否具有优势？,apache-spark,Apache Spark,PySpark在处理太大而无法完全加载到内存中的数据时是否具有任何优势？我试图将此功能（以及其他功能）与基于IPy并行的方法进行比较。spark shell（使用scala）/pyspark用于超高速集群计算这完全取决于集群的大小，特别是要分配给每个工作者的SPARK_WORKER_内存如果您的数据超出了内存的容量，spark将有效地利用磁盘（以及内存）希望这有帮助：）+根据您的需求选择RDD持久性存储级别

PySpark在处理太大而无法完全加载到内存中的数据时是否具有任何优势？我试图将此功能（以及其他功能）与基于IPy并行的方法进行比较。

spark shell（使用scala）/pyspark用于超高速集群计算

这完全取决于集群的大小，特别是要分配给每个工作者的SPARK_WORKER_内存

如果您的数据超出了内存的容量，spark将有效地利用磁盘（以及内存）

希望这有帮助：）

+根据您的需求选择RDD持久性存储级别