Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 估计要从Spark写入HDFS的零件文件数_Apache Spark_Apache Spark Sql_Rdd - Fatal编程技术网

Apache spark 估计要从Spark写入HDFS的零件文件数

Apache spark 估计要从Spark写入HDFS的零件文件数,apache-spark,apache-spark-sql,rdd,Apache Spark,Apache Spark Sql,Rdd,我想在HDFS中以Parquet.snappy格式编写Spark数据帧。目前,它正在创建默认的200个零件文件,即使表中的记录数较少 是可用的任意公式,该公式提供了大约数量的零件文件以HDFS格式写入,因此读取速度更快 理想情况下,零件文件大小应在50-200 MB之间。 我知道重新分区和合并功能会减少/增加零件文件的数量。我正在寻找数据帧需要重新分区的编号。基本上,您的数据帧中的部分文件与分区数量相同 如果确定总数据量,可以尝试使用合并或重新分区方法

我想在HDFS中以Parquet.snappy格式编写Spark数据帧。目前,它正在创建默认的200个零件文件,即使表中的记录数较少

是可用的任意公式,该公式提供了大约数量的零件文件以HDFS格式写入,因此读取速度更快

理想情况下,零件文件大小应在50-200 MB之间。
我知道重新分区和合并功能会减少/增加零件文件的数量。我正在寻找数据帧需要重新分区的编号。

基本上,您的数据帧中的部分文件与分区数量相同

如果确定总数据量,可以尝试使用
合并
重新分区
方法