Python Pyspark RDD的最大文件大小

Python Pyspark RDD的最大文件大小,python,linux,apache-spark,pyspark,Python,Linux,Apache Spark,Pyspark,我正在工作时在Pyspark shell中练习Pyspark(单机版),这对我来说是非常新的。关于我的机器上的最大文件大小和RAM(或任何其他规格)是否有经验法则?使用集群时会发生什么情况 我正在练习的文件大约有1200行。但我很想知道,根据机器规格或群集规格,文件大小可以读入RDD有多大。您可以处理的数据大小没有硬限制,但是,当RDD(弹性分布式数据集)大小超过RAM大小时,数据将移到磁盘。即使数据被移动到磁盘上,spark也同样能够处理它。例如,如果您的数据为12GB,可用内存为8GB,sp

我正在工作时在Pyspark shell中练习Pyspark(单机版),这对我来说是非常新的。关于我的机器上的最大文件大小和RAM(或任何其他规格)是否有经验法则?使用集群时会发生什么情况


我正在练习的文件大约有1200行。但我很想知道,根据机器规格或群集规格,文件大小可以读入RDD有多大。

您可以处理的数据大小没有硬限制,但是,当RDD(弹性分布式数据集)大小超过RAM大小时,数据将移到磁盘。即使数据被移动到磁盘上,spark也同样能够处理它。例如,如果您的数据为12GB,可用内存为8GB,spark将把剩余数据分发到磁盘,并无缝地处理所有转换/操作。话虽如此,您可以适当地处理与磁盘大小相等的数据

单个RDD的大小当然有大小限制,即2GB。换句话说,块的最大大小不会超过2GB