Apache spark 当数据大小大于内存时,PySpark是否具有优势?

Apache spark 当数据大小大于内存时,PySpark是否具有优势?,apache-spark,Apache Spark,PySpark在处理太大而无法完全加载到内存中的数据时是否具有任何优势?我试图将此功能(以及其他功能)与基于IPy并行的方法进行比较。spark shell(使用scala)/pyspark用于超高速集群计算 这完全取决于集群的大小,特别是要分配给每个工作者的SPARK_WORKER_内存 如果您的数据超出了内存的容量,spark将有效地利用磁盘(以及内存) 希望这有帮助:)+根据您的需求选择RDD持久性存储级别

PySpark在处理太大而无法完全加载到内存中的数据时是否具有任何优势?我试图将此功能(以及其他功能)与基于IPy并行的方法进行比较。

spark shell(使用scala)/pyspark用于超高速集群计算

这完全取决于集群的大小,特别是要分配给每个工作者的SPARK_WORKER_内存

如果您的数据超出了内存的容量,spark将有效地利用磁盘(以及内存)


希望这有帮助:)

+根据您的需求选择RDD持久性存储级别