Python Pyspark RDD的最大文件大小_Python_Linux_Apache Spark_Pyspark

Python Pyspark RDD的最大文件大小

python linux apache-spark pyspark

Python Pyspark RDD的最大文件大小,python,linux,apache-spark,pyspark,Python,Linux,Apache Spark,Pyspark,我正在工作时在Pyspark shell中练习Pyspark（单机版），这对我来说是非常新的。关于我的机器上的最大文件大小和RAM（或任何其他规格）是否有经验法则？使用集群时会发生什么情况我正在练习的文件大约有1200行。但我很想知道，根据机器规格或群集规格，文件大小可以读入RDD有多大。您可以处理的数据大小没有硬限制，但是，当RDD（弹性分布式数据集）大小超过RAM大小时，数据将移到磁盘。即使数据被移动到磁盘上，spark也同样能够处理它。例如，如果您的数据为12GB，可用内存为8GB，sp

我正在工作时在Pyspark shell中练习Pyspark（单机版），这对我来说是非常新的。关于我的机器上的最大文件大小和RAM（或任何其他规格）是否有经验法则？使用集群时会发生什么情况

我正在练习的文件大约有1200行。但我很想知道，根据机器规格或群集规格，文件大小可以读入RDD有多大。

您可以处理的数据大小没有硬限制，但是，当RDD（弹性分布式数据集）大小超过RAM大小时，数据将移到磁盘。即使数据被移动到磁盘上，spark也同样能够处理它。例如，如果您的数据为12GB，可用内存为8GB，spark将把剩余数据分发到磁盘，并无缝地处理所有转换/操作。话虽如此，您可以适当地处理与磁盘大小相等的数据

单个RDD的大小当然有大小限制，即2GB。换句话说，块的最大大小不会超过2GB