Apache spark 估计要从Spark写入HDFS的零件文件数
我想在HDFS中以Parquet.snappy格式编写Spark数据帧。目前,它正在创建默认的200个零件文件,即使表中的记录数较少 是可用的任意公式,该公式提供了大约数量的零件文件以HDFS格式写入,因此读取速度更快 理想情况下,零件文件大小应在50-200 MB之间。Apache spark 估计要从Spark写入HDFS的零件文件数,apache-spark,apache-spark-sql,rdd,Apache Spark,Apache Spark Sql,Rdd,我想在HDFS中以Parquet.snappy格式编写Spark数据帧。目前,它正在创建默认的200个零件文件,即使表中的记录数较少 是可用的任意公式,该公式提供了大约数量的零件文件以HDFS格式写入,因此读取速度更快 理想情况下,零件文件大小应在50-200 MB之间。 我知道重新分区和合并功能会减少/增加零件文件的数量。我正在寻找数据帧需要重新分区的编号。基本上,您的数据帧中的部分文件与分区数量相同 如果确定总数据量,可以尝试使用合并或重新分区方法
我知道重新分区和合并功能会减少/增加零件文件的数量。我正在寻找数据帧需要重新分区的编号。基本上,您的数据帧中的部分文件与分区数量相同 如果确定总数据量,可以尝试使用
合并
或重新分区
方法