Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Dataframe Spark数据帧的最小划分_Dataframe_Apache Spark_Pyspark_Apache Spark Sql_Data Science - Fatal编程技术网

Dataframe Spark数据帧的最小划分

Dataframe Spark数据帧的最小划分,dataframe,apache-spark,pyspark,apache-spark-sql,data-science,Dataframe,Apache Spark,Pyspark,Apache Spark Sql,Data Science,有人能帮助我理解如何更改最大分区字节配置,以便在读取Spark SQL中的每个文件时启用至少2个分区(因此,在读取给定数据文件时,每个dataframe 2应至少具有4个分区)?maxPartitionBytes选项提供存储在分区中的字节数。默认值为128 MB。如果您可以根据必须加载的文件大小操纵默认容量,那么最小分区数将相应地改变。 例如,如果加载一个90MB的文件,那么将创建一个分区。如果您使用以下功能更改配置 SparkConf().set(“spark.sql.files.maxPar

有人能帮助我理解如何更改最大分区字节配置,以便在读取Spark SQL中的每个文件时启用至少2个分区(因此,在读取给定数据文件时,每个dataframe 2应至少具有4个分区)?

maxPartitionBytes选项提供存储在分区中的字节数。默认值为128 MB。如果您可以根据必须加载的文件大小操纵默认容量,那么最小分区数将相应地改变。 例如,如果加载一个90MB的文件,那么将创建一个分区。如果您使用以下功能更改配置

SparkConf().set(“spark.sql.files.maxPartitionBytes”,”)

并将字节数更改为52428800(50MB), ie SparkConf().set(“spark.sql.files.maxPartitionBytes”,52428800) 然后,分区大小的最大容量将减少,并将创建2个分区

在括号中,必须将存储量以“字节”为单位