Apache spark 估计要从Spark写入HDFS的零件文件数_Apache Spark_Apache Spark Sql_Rdd

Apache spark 估计要从Spark写入HDFS的零件文件数

apache-spark

Apache spark 估计要从Spark写入HDFS的零件文件数,apache-spark,apache-spark-sql,rdd,Apache Spark,Apache Spark Sql,Rdd,我想在HDFS中以Parquet.snappy格式编写Spark数据帧。目前，它正在创建默认的200个零件文件，即使表中的记录数较少是可用的任意公式，该公式提供了大约数量的零件文件以HDFS格式写入，因此读取速度更快理想情况下，零件文件大小应在50-200 MB之间。我知道重新分区和合并功能会减少/增加零件文件的数量。我正在寻找数据帧需要重新分区的编号。基本上，您的数据帧中的部分文件与分区数量相同如果确定总数据量，可以尝试使用合并或重新分区方法

我想在HDFS中以Parquet.snappy格式编写Spark数据帧。目前，它正在创建默认的200个零件文件，即使表中的记录数较少

是可用的任意公式，该公式提供了大约数量的零件文件以HDFS格式写入，因此读取速度更快

理想情况下，零件文件大小应在50-200 MB之间。

我知道重新分区和合并功能会减少/增加零件文件的数量。我正在寻找数据帧需要重新分区的编号。

基本上，您的数据帧中的部分文件与分区数量相同

如果确定总数据量，可以尝试使用

合并

或

重新分区

方法